字节跳动机器学习训练框架研发实习生-Data AML
任职要求
1、2026届本科及以上学历在读,计算机、软件工程等相关专业优先; 2、熟练掌握Linux环境下的C/C++与Python语言; 3、接触过至少一种机器学习框架(Tensorflow/PyTorch/MxNet或其他自研框架); 4、有以下至少一项的背景知识与经验:GPU编程,编译器,高性能网络,分布式存储,集群调度; 5、具有独立解决问题的能力,良好的团队合作精神; 6、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;有良好的工作文档习惯,及时按要求撰写更新工…
工作职责
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动AML机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、深度参与火山引擎业务的平台项目, 协同产品和研发团队高质量交付产品; 2、负责质量体系规划和建设,设计自动化测试方案,维护自动化框架稳定; 3、负责开发效率工具和保证技术项目质量; 4、参与项目产品的架构和代码评审工作,推进系统的可测性和稳定性建设; 5、进行测试工具、测试技术、测试平台、产品研发测试过程等方面的建设和创新工作,提升测试效率; 6、探索系统不同层面的自动化测试手段,给测试工程师带来更多测试能力和便捷的测试方法。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责公司机器学习系统架构的设计开发,以及系统性能调优; 2、负责解决系统高并发、高可靠性、高可扩展性等技术难关; 3、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型推理、模型管理、数据集管理、工作流编排、ML for System等; 4、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、GPU 优化技术的引入落地; 5、研究基于机器学习方法,实现对集群/服务资源使用情况的分析和优化。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责机器学习训练和推理系统的研发与性能优化,包括但不限于:超大模型计算性能优化、千卡训练集群调优、分布式推理系统、大规模推理流量调度等; 2、负责解决大规模AI系统中高并发、高可靠性、高可扩展性等技术难关,支撑公司内外千万客户流量需求; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于分布式训推系统、子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等; 5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU 超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,分析性能瓶颈,通过软硬结合提升模型训推效率,支持AI工具链和技术生态建设,推动公司AI关键业务发展。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责火山引擎-方舟大模型平台的Agent技术研发,包括Multi-Agent框架、Memory机制、Agent-RL等基础能力建设; 2、开发UI-Agent、DeepResearch Agent等专业领域Agent,提升大模型在特定场景的应用能力; 3、设计并实现易用高效的Agent开发套件,降低开发者使用Agent技术的门槛; 4、探索Agent方向的创新方法与技术,提出更先进的Agent范式,引领行业技术发展; 5、探索面向Agent的评估方法,构建火山方舟Agent评估体系。