logo of tencent

腾讯机器学习平台开发工程师(北京/深圳)

社招全职3年以上公共技术地点:深圳状态:招聘

任职要求


1.熟练掌握TensorFlowPytorch、deepSpeed等主流深度学习框架中的一种或多种,并有具体的项目应用经验(包括但不限于模型训练优化、模型服务优化等经验);
2…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.负责腾讯混元机器学习平台的设计与开发,包括:性能优化,持续提升训练性能,包括多机多卡大规模训练优化,数据交换优化等;
2.深入理解跟踪业界AIGC动态,优化平台技术方案,提升平台易用性,降低大模型研发门槛,不断推进平台的LLMOps能力升级;
3.积极追踪业内AI动态,优化内部技术方案,改进产品性能,不断推进AI架构升级。
包括英文材料
TensorFlow+
PyTorch+
深度学习+
还有更多 •••
相关职位

logo of tencent
社招TEG技术

1.参与腾讯太极统一GPU调度平台开发,负责万卡GPU集群配额管理、任务排队、弹性任务、跨集群等功能和性能优化; 2.优化异构AI芯片在多种任务作业之间的全局最优匹配,实现全局最佳利用率; 3.支持腾讯混元大模型、广告、视频号等众多业务场景的离线、在线GPU作业,保障平台高性能高稳定运行。

更新于 2025-05-15深圳
logo of tencent
社招3年以上TEG技术

1.主导万卡级GPU集群的全局资源调度,通过精细化管理和优化策略,显著提升资源利用率,确保离线和在线任务的高效稳定运行; 2.深入优化RDMA高速网络、分布式存储与计算资源的协同调度,有效解决大规模训练任务中的性能瓶颈,提升整体计算效率; 3.基于Kubernetes、Docker等云原生技术,构建高可用调度框架,全面支持分布式训练框架,实现任务编排、容灾与混部能力,并深入K8s调度器、CSI插件及CRD的开发,推动大规模训推技术的实际落地; 4.积极探索混合云、虚拟化、ARM异构计算等前沿方向,不断推动技术与平台能力的升级和创新。

更新于 2026-01-28北京
logo of tencent
社招3年以上公共技术

1.负责大模型全模态从训练到推理部署的全流程工作,在机器学习平台上引入并优化前沿算法和技术,以推动工程与模型性能的提升和业务的落地。专注于以下一个或多个方向:; 2.训练数据构建与优化:开发自动化工具和智能算法,以优化多源数据的获取、清洗、配比和合成,提升训练数据的质量和效率; 3.模型训练与优化:设计和实现训练流程自动化工具,包括超参数优化、训练早停策略、模型选择等,以提高训练效率和模型性能; 4.强化学习与后训练优化:研究和应用强化学习算法,包括异步方法、长思考推理模型训练等,以提升模型的样本效率和稳定性; 5.Agentic RL应用:利用Tool-integrated Reasoning等技术解决复杂业务问题,搭建适用于不同场景的Agentic RL框架。

更新于 2025-08-18深圳
logo of xiaohongshu
社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系

北京|上海|深圳