腾讯机器学习平台开发工程师(北京/深圳)
任职要求
1.熟练掌握TensorFlow、Pytorch、deepSpeed等主流深度学习框架中的一种或多种,并有具体的项目应用经验(包括但不限于模型训练优化、模型服务优化等经验); 2…
工作职责
1.负责腾讯混元机器学习平台的设计与开发,包括:性能优化,持续提升训练性能,包括多机多卡大规模训练优化,数据交换优化等; 2.深入理解跟踪业界AIGC动态,优化平台技术方案,提升平台易用性,降低大模型研发门槛,不断推进平台的LLMOps能力升级; 3.积极追踪业内AI动态,优化内部技术方案,改进产品性能,不断推进AI架构升级。
1.参与腾讯太极统一GPU调度平台开发,负责万卡GPU集群配额管理、任务排队、弹性任务、跨集群等功能和性能优化; 2.优化异构AI芯片在多种任务作业之间的全局最优匹配,实现全局最佳利用率; 3.支持腾讯混元大模型、广告、视频号等众多业务场景的离线、在线GPU作业,保障平台高性能高稳定运行。
1.主导万卡级GPU集群的全局资源调度,通过精细化管理和优化策略,显著提升资源利用率,确保离线和在线任务的高效稳定运行; 2.深入优化RDMA高速网络、分布式存储与计算资源的协同调度,有效解决大规模训练任务中的性能瓶颈,提升整体计算效率; 3.基于Kubernetes、Docker等云原生技术,构建高可用调度框架,全面支持分布式训练框架,实现任务编排、容灾与混部能力,并深入K8s调度器、CSI插件及CRD的开发,推动大规模训推技术的实际落地; 4.积极探索混合云、虚拟化、ARM异构计算等前沿方向,不断推动技术与平台能力的升级和创新。
1.负责大模型全模态从训练到推理部署的全流程工作,在机器学习平台上引入并优化前沿算法和技术,以推动工程与模型性能的提升和业务的落地。专注于以下一个或多个方向:; 2.训练数据构建与优化:开发自动化工具和智能算法,以优化多源数据的获取、清洗、配比和合成,提升训练数据的质量和效率; 3.模型训练与优化:设计和实现训练流程自动化工具,包括超参数优化、训练早停策略、模型选择等,以提高训练效率和模型性能; 4.强化学习与后训练优化:研究和应用强化学习算法,包括异步方法、长思考推理模型训练等,以提升模型的样本效率和稳定性; 5.Agentic RL应用:利用Tool-integrated Reasoning等技术解决复杂业务问题,搭建适用于不同场景的Agentic RL框架。