腾讯混元-太极大模型平台产品经理
任职要求
1.基础要求; 2.◦ 3-5年B端/平台型产品经理经验,有AI大模型、机器学习平台、开发者工具类产品经验优先; 3.◦ 熟悉大模型技术栈(如训练框架、分布式推理、Prompt工程),能与技术团队高效对话; 4.能力要求; 5.业务痛点击穿力:能快速定位复杂业务问题的本质,提出平台化解决方案; 6.技术产品化思维:擅长将算法能力转化为标…
工作职责
1.业务需求洞察与转化:; 2.深入对接业务线(如算法团队、司内业务部门),理解大模型在应用场景中的业务痛点,输出产品需求文档并推动优先级共识; 3.深入分析行业痛点(如客服、内容生成、3D建模等),输出定制化解决方案,推动产品适配性优化; 4.平台能力构建与体验提升:; 5.主导设计大模型全生命周期管理功能,涵盖数据标注、模型训练、效果评测、部优化等环节的核心模块,构建大模型全生命周期管理闭环,重点突破高并发训练、分布式推理、多模态模型兼容等能力; 6.设计面向开发者的低门槛工具链(如可视化Prompt编排、一键式模型微调),提升平台DAU/留存率; 7.端到端功能交付与落地; 8.独立负责功能从PRD设计到上线的全流程管理,协调研发、测试、算法团队资源,确保技术方案与业务目标的强对齐; 9.建立关键指标(如模型迭代周期、资源利用率、用户满意度),通过数据验证功能价值; 10.主导交付后的用户培训、反馈收集及问题闭环; 11.跨团队协同与项目管理; 12.推动业务方、工程团队、算法团队三方协作; 13.推动太极在腾讯生态产品(如微信、腾讯文档、腾讯会议)中的深度合作与能力共建。
大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。
1、负责快手搜推广服务的云原生管控方向,建设云上的平台化服务管控、服务调度能力; 2、结合服务场景设计相关调度策略、智能弹性伸缩能力、潮汐混部能力,提高集群硬件利用率。
负责快手搜索系统的业务引擎架构方向,面向短视频、电商、本地、搜索增长等多业务场景构建大规模业务引擎,支持算法业务的高效迭代。具体职责包括: 1、构建面向各个搜索业务的全链路业务引擎模块,包括策略服务、统一特征服务,排序服务等,支持算法和产运的迭代需求; 2、构建面向在线引擎的全图化引擎架构,提升全链路算法迭代效率和系统优化效率; 3、构建在线混部,动态算力等技术在高可用基础上提升在线引擎算力供给; 4、探索AI智能搜索、AI对话等新业务,探索大模型在搜索的应用落地。
岗位职责 1. 全链路AI基建开发 * 构建在线模型编排(Model Orchestration)能力,优化百万核级规模模型的资源调度、稳定性治理及跨系统复用。 * 主导特征工程平台(RedFeatureStore)建设,打通离线/在线数据一致性,支持超长序列建模、高商业价值特征探索等场景。 * 设计高性能推理引擎(RankML/RetrievalML),覆盖广告粗排、精排、创意优选等核心链路,实现算力与延迟的极致优化。 2. 下一代AI技术落地 * 推动GPU推理、AI编译器优化(算子融合/自动调优)、边缘存储等技术的深度应用,提升服务性能。 * 探索LLM、RAG、Agent技术在广告场景的应用,重构创意生成、相关性建模等业务的工作流。 3. 工程效能与稳定性 * 主导C++服务框架、容器化、混部资源优化,解决高并发场景下的长尾延迟、CPU利用率等核心问题。 * 构建自动化诊断工具链,提升复杂系统的可观测性与故障恢复效率。