字节跳动强化学习训练框架工程师(火山引擎机器学习平台)-Data AML
任职要求
1、熟练掌握Linux环境下C/C++、Python编程,具备高效的代码实现与调试能力; 2、深度掌握PyTorch框架,掌握Profiling、调优方式,了解其底层原理; 3、具备训练框架(如Megatron-LM、DeepSpeed、TorchTuner)或推理框架(如vLLM、SG-Lang、TensorRT)的开发和优化经验; 4、熟悉大模型(LLM、DiT)的训练特性,具备模型训练性能瓶颈分析与调优能力; 5、有大规模分布式系统开发或运维经验,熟悉分布式通信库(RPC、NCCL、MPI)的使用与调优。 加分项 1、有GitHub开源社区技术热门项目贡献经验(代码提交、问题解决、文档维护等); 2、熟悉强化学习(RL)任务特点,具备RL框架或算法优化经验。
工作职责
1、veRL框架研发与优化:主导veRL架的核心功能设计与开发,聚焦性能优化与稳定性提升,推动框架在复杂场景(如Agent、Compute Use)下的规模化应用;同时深度参与开源社区生态建设(如技术贡献、文档维护、社区活动组织); 2、veOmini LLM/DiT训练框架研发与优化:负责veOmini中LLM与DiT训练模块的开发与优化,支持Wan2.1/Qwen/DeepSeek等热点模型的高效后训练和强化学习。
AML是公司的机器学习中台,为推荐/广告/搜索等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动 AML 机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
AML是公司的机器学习中台,为推荐/广告/搜索等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动 AML 机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
AML是公司的机器学习中台,为推荐/广告/搜索等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动 AML 机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
团队介绍:AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动机器学习训练/推理框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练/推理框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。