字节跳动公有云机器学习系统工程师-训练方向

社招全职A1976492024-06-28地点：北京状态：招聘

扫码手机上打开

任职要求

1、熟练掌握Linux环境下的Go/Java/Python等1-2种语言；
2、具备扎实的计算机科学功底和编程能力，熟悉常见算法和数据结构，具有良好的编程习惯；
3、熟悉至少一种主流的机器学习框架（TensorFlow / PyTorch 或其他自研框架）；
4、熟悉 Kubernetes 架构和生态，熟悉 Docker/Containerd/Kata 等容器技术，有丰富的云原生机器学习系统实践和开发经验；
5、掌握分布式系统原理，参与过大规模分布式系统的设计、开发和维护；
6、有优秀的逻辑分析能力，能够对业务逻辑进行合理的抽象和拆分；
7、有强烈的工作责任心，较好的学习能力、沟通能力和自驱力，能够快速的响应和行动；
8、有良好的工作文档习惯，及时按要求撰写更新工作流程及技术文档。

加分项
1、有机器学习、大数据平台的工程架构落地经验…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责机器学习系统训练架构和产品的设计开发，支持火山方舟大模型平台和机器学习平台的产品业务；
2、负责充分利用各种异构计算（GPU、CPU、其他异构硬件）、存储（各种云存储）、网络（VPC、RDMA）等资源，支持主流的PyTorch、Megatron、TensorFlow等训练框架，支持大规模 LLM 预训练、Finetuning、强化学习等各种训练范式，支持大模型、自动驾驶、生信计算等各种业务场景下算法需求；
3、负责训练系统的产品化落地，打造算法工程师友好的、体验一流的公有云训练平台。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

Go+

Java+

Python+

算法+

数据结构+

编程规范+

机器学习+

TensorFlow+

PyTorch+

Kubernetes+

还有更多 •••

登录查看完整学习资料

相关职位

公有云机器学习系统工程师-调度方向

社招A11907

1、负责机器学习系统资源调度的设计和开发，支持火山方舟大模型平台和机器学习平台的产品业务； 2、负责多机房、多集群环境下的，各种异构计算（GPU、CPU、其他异构硬件）、存储（各种云存储）、网络（VPC、RDMA）等资源的最优化编排调度，在严格的多租隔离环境下，支持各种离线训练、在线推理等负载场景的调度需求，并实现整体资源的合理化、最大化利用。

更新于 2024-06-28北京

强化学习系统工程师

社招

1. 熟练掌握Linux环境下的Go/Java/Python等1-2种语言； 2. 具备扎实的计算机科学功底和编程能力，熟悉常见算法和数据结构，具有良好的编程习惯； 3. 熟悉至少一种主流的机器学习框架（TensorFlow / PyTorch 或其他自研框架）； 4. 熟悉 Kubernetes 架构和生态，熟悉 Docker/Containerd/Kata 等容器技术，有丰富的云原生机器学习系统实践和开发经验； 5. 掌握分布式系统原理，参与过大规模分布式系统的设计、开发和维护，熟悉Ray； 6. 有优秀的逻辑分析能力，能够对业务逻辑进行合理的抽象和拆分； 7. 有强烈的工作责任心，较好的学习、沟通能力和自驱力，能够快速的响应和行动； 8. 有良好的工作文档习惯，及时按要求撰写更新工作流程及技术文档。

更新于 2025-04-28深圳|上海

【25届校招】强化学习系统工程师

校招

更新于 2025-04-28深圳

中/高级机器学习平台工程师（训练平台）

社招算法

1. 构建多云异构资源调度体系，整合多家云厂商的AI算力资源，设计优先级策略，实现跨平台资源池化管理和高效动态分配； 2. 设计数据智能路由方案，确保训练数据在混合云环境下高效流动，优化跨云数据同步效率； 3. 对接MLOps系统，实现训练任务编排、版本控制、模型监控等功能的深度集成； 4. 开发资源效能监控系统，实时追踪GPU利用率、任务排队时长等核心指标。

更新于 2025-04-08深圳