logo of bytedance

字节跳动强化学习系统平台工程师-Seed

社招全职A31596地点:北京状态:招聘

任职要求


1、熟练掌握Linux环境下的Go/Python/Shell等1至2种以上语言;
2、熟悉Kubernetes架构和生态,有丰富的机器学习系统实践和开发经验;
3、熟悉Ray架构和生态,有Ray应用或者Ray core开发经验;
4、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
5、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
6、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动。

加分项:
1、熟悉至少一种主流的机器学习框架,如PyTorch/Megatron-LM/DeepSpeed等;
2、熟悉至少一种主流的RLHF框架,如OpenRLHF/veRL/ChatLearn等;
3、熟悉Ray框架或其他强化学习相关计算框架;
4、有以下某一方向领域的经验:安全容器、虚拟机、浏览器沙箱等;
5、在计算机系统网络顶会OSDI/SOSP/NSDI/ATC/EuroSys上有文章发表经验。

工作职责


团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。
Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。

1、负责O1/O3等思维链模型的分布式在线强化学习系统平台构建与性能优化,探索通往AGI的强化学习训练系统设计;
2、负责构建Agent、Function Call、Sandbox、以及其他环境交互场景下的强化学习下的分布式训练奖励评估系统;
3、负责构建Agent框架与平台,支持复杂交互下的强化学习模型训练;
4、负责强化学习环境下的可观测性、可解释性的系统建设;
5、负责强化学习任务性能优化,提升模型迭代效率。
包括英文材料
Linux+
Go+
Python+
Bash+
Kubernetes+
机器学习+
Ray+
分布式系统+
PyTorch+
Megatron+
DeepSpeed+
强化学习+
相关职位

logo of bytedance
社招A226893

1、开发完善工程级代码场景测试数据大规模自动构造过程,研发有代表性且创新的工程级代码评测场景; 2、Coding Agent框架的测试和工程开发。

更新于 2025-05-30
logo of xpeng
社招

1. 熟练掌握Linux环境下的Go/Java/Python等1-2种语言; 2. 具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯; 3. 熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch 或其他自研框架); 4. 熟悉 Kubernetes 架构和生态,熟悉 Docker/Containerd/Kata 等容器技术,有丰富的云原生机器学习系统实践和开发经验; 5. 掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护,熟悉Ray; 6. 有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分; 7. 有强烈的工作责任心,较好的学习、沟通能力和自驱力,能够快速的响应和行动; 8. 有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。

更新于 2025-04-28
logo of xpeng
校招

1. 熟练掌握Linux环境下的Go/Java/Python等1-2种语言; 2. 具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯; 3. 熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch 或其他自研框架); 4. 熟悉 Kubernetes 架构和生态,熟悉 Docker/Containerd/Kata 等容器技术,有丰富的云原生机器学习系统实践和开发经验; 5. 掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护,熟悉Ray; 6. 有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分; 7. 有强烈的工作责任心,较好的学习、沟通能力和自驱力,能够快速的响应和行动; 8. 有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。

更新于 2025-04-28
logo of bytedance
社招A197649

1、负责机器学习系统训练架构和产品的设计开发,支持火山方舟大模型平台和机器学习平台的产品业务; 2、负责充分利用各种异构计算(GPU、CPU、其他异构硬件)、存储(各种云存储)、网络(VPC、RDMA)等资源,支持主流的PyTorch、Megatron、TensorFlow等训练框架,支持大规模 LLM 预训练、Finetuning、强化学习等各种训练范式,支持大模型、自动驾驶、生信计算等各种业务场景下算法需求; 3、负责训练系统的产品化落地,打造算法工程师友好的、体验一流的公有云训练平台。

更新于 2024-06-28