腾讯混元机器学习平台GPU调度研发工程师(深圳/北京)
任职要求
1.有大规模GPU集群资源/任务调度研发经验,了解不同规格GPU资源,熟悉GPU任务运行、容错、调度特性; 2.熟悉常见的task-scheduling调度模型和框架,了解排队论、动态规划等运筹学等基础原理; 3.熟悉Kubernetes、Docker等云原生技术工具,了解CRD的工作原理和实现; 4.良好的自驱力、责任心,以及沟通能力和优秀的团队协作能力; 5.熟悉掌握JAVA/GO/Python中一种或多种编程语言,熟悉常用算法和数据结构,具有扎实的编程功底。
工作职责
1.参与腾讯太极统一GPU调度平台开发,负责万卡GPU集群配额管理、任务排队、弹性任务、跨集群等功能和性能优化; 2.优化异构AI芯片在多种任务作业之间的全局最优匹配,实现全局最佳利用率; 3.支持腾讯混元大模型、广告、视频号等众多业务场景的离线、在线GPU作业,保障平台高性能高稳定运行。
1.业务需求洞察与转化:; 2.深入对接业务线(如算法团队、司内业务部门),理解大模型在应用场景中的业务痛点,输出产品需求文档并推动优先级共识; 3.深入分析行业痛点(如客服、内容生成、3D建模等),输出定制化解决方案,推动产品适配性优化; 4.平台能力构建与体验提升:; 5.主导设计大模型全生命周期管理功能,涵盖数据标注、模型训练、效果评测、部优化等环节的核心模块,构建大模型全生命周期管理闭环,重点突破高并发训练、分布式推理、多模态模型兼容等能力; 6.设计面向开发者的低门槛工具链(如可视化Prompt编排、一键式模型微调),提升平台DAU/留存率; 7.端到端功能交付与落地; 8.独立负责功能从PRD设计到上线的全流程管理,协调研发、测试、算法团队资源,确保技术方案与业务目标的强对齐; 9.建立关键指标(如模型迭代周期、资源利用率、用户满意度),通过数据验证功能价值; 10.主导交付后的用户培训、反馈收集及问题闭环; 11.跨团队协同与项目管理; 12.推动业务方、工程团队、算法团队三方协作; 13.推动太极在腾讯生态产品(如微信、腾讯文档、腾讯会议)中的深度合作与能力共建。
1.负责腾讯混元机器学习平台的设计与开发,包括:性能优化,持续提升训练性能,包括多机多卡大规模训练优化,数据交换优化等; 2.深入理解跟踪业界AIGC动态,优化平台技术方案,提升平台易用性,降低大模型研发门槛,不断推进平台的LLMOps能力升级; 3.积极追踪业内AI动态,优化内部技术方案,改进产品性能,不断推进AI架构升级。
1.带领团队进行前沿算法研究,专注于大模型中强化学习算法的设计与优化,涵盖强化学习算法、奖励建模、世界模型等多个方向; 2.在大模型的复杂推理等自主探索与学习等场景中进行大规模实验验证,推动研究成果在行业内的实际应用,并发表具有影响力的学术论文; 3.探索大模型的前沿技术,结合未来实际应用场景,提供创新的技术解决方案; 4.与跨职能团队合作,确保项目进展顺利,并在技术突破方面发挥领导作用。