腾讯混元机器学习平台GPU调度研发工程师(深圳/北京）

社招全职TEG技术2025-05-15地点：深圳状态：招聘

扫码手机上打开

任职要求

1.有大规模GPU集群资源/任务调度研发经验，了解不同规格GPU资源，熟悉GPU任务运行、容错、调度特性；
2.熟悉常见的task-scheduling调度模型和框架，了解排队论、动态规划等运筹学等基础原理；
3.熟悉Kubernet…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.参与腾讯太极统一GPU调度平台开发，负责万卡GPU集群配额管理、任务排队、弹性任务、跨集群等功能和性能优化；
2.优化异构AI芯片在多种任务作业之间的全局最优匹配，实现全局最佳利用率；
3.支持腾讯混元大模型、广告、视频号等众多业务场景的离线、在线GPU作业，保障平台高性能高稳定运行。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Kubernetes+

Docker+

Java+

还有更多 •••

登录查看完整学习资料

相关职位

混元-太极大模型平台产品经理

社招3-5年TEG产品

1.业务需求洞察与转化：； 2.深入对接业务线（如算法团队、司内业务部门），理解大模型在应用场景中的业务痛点，输出产品需求文档并推动优先级共识； 3.深入分析行业痛点（如客服、内容生成、3D建模等），输出定制化解决方案，推动产品适配性优化； 4.平台能力构建与体验提升：； 5.主导设计大模型全生命周期管理功能，涵盖数据标注、模型训练、效果评测、部优化等环节的核心模块，构建大模型全生命周期管理闭环，重点突破高并发训练、分布式推理、多模态模型兼容等能力； 6.设计面向开发者的低门槛工具链（如可视化Prompt编排、一键式模型微调），提升平台DAU/留存率； 7.端到端功能交付与落地； 8.独立负责功能从PRD设计到上线的全流程管理，协调研发、测试、算法团队资源，确保技术方案与业务目标的强对齐； 9.建立关键指标（如模型迭代周期、资源利用率、用户满意度），通过数据验证功能价值； 10.主导交付后的用户培训、反馈收集及问题闭环； 11.跨团队协同与项目管理； 12.推动业务方、工程团队、算法团队三方协作； 13.推动太极在腾讯生态产品（如微信、腾讯文档、腾讯会议）中的深度合作与能力共建。

更新于 2025-05-30深圳

机器学习平台开发工程师（北京/深圳）

社招3年以上公共技术

1.负责腾讯混元机器学习平台的设计与开发，包括：性能优化，持续提升训练性能，包括多机多卡大规模训练优化，数据交换优化等； 2.深入理解跟踪业界AIGC动态，优化平台技术方案，提升平台易用性，降低大模型研发门槛，不断推进平台的LLMOps能力升级； 3.积极追踪业内AI动态，优化内部技术方案，改进产品性能，不断推进AI架构升级。

更新于 2026-02-11深圳

混元大模型强化学习研究员

社招3年以上混元助手-平台技

1.带领团队进行前沿算法研究，专注于大模型中强化学习算法的设计与优化，涵盖强化学习算法、奖励建模、世界模型等多个方向； 2.在大模型的复杂推理等自主探索与学习等场景中进行大规模实验验证，推动研究成果在行业内的实际应用，并发表具有影响力的学术论文； 3.探索大模型的前沿技术，结合未来实际应用场景，提供创新的技术解决方案； 4.与跨职能团队合作，确保项目进展顺利，并在技术突破方面发挥领导作用。

更新于 2026-01-23深圳

混元大模型评测算法研究员（北京）

社招2年以上TEG技术

负责通用AI大模型相关的评测与应用的规划、落地以及平台化能力建设，包括但不限于： 1.通用AI大模型评测基准的构建：建立覆盖文生文、多模态理解、多模态（音视频/3D/图/视频生成）生成等多模态的评测基准，设计全面、准确的多维度指标，构建自动化评测工具链，并随着模型能力的演进持续探索全模态的评测基准； 2.评测数据的自动化生产能力构建：基于数据泛化等能力，构建领域增强型评测数据集生产链路，支持多模态场景的自动化数据扩增与效果验证； 3.自动化评测与归因分析：探索并实现各个模态大模型的自动化评测与模型缺陷归因机制。

更新于 2025-05-19深圳