字节跳动公有云机器学习系统工程师-训练方向
任职要求
1、熟练掌握Linux环境下的Go/Java/Python等1-2种语言; 2、具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯; 3、熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch 或其他自研框架); 4、熟悉 Kubernetes 架构和生态,熟悉 Docker/Containerd/Kata 等容器技术,有丰富的云原生机器学习系统实践和开发经验; 5、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护; 6、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分; 7、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动; 8、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。 加分项 1、有机器学习、大数据平台的工程架构落地经验,熟练掌握常见的分布式训练、计算框架(pytorch/tensorflow/ray/spark/flink)原理及工程实现,熟悉GPU、大模型相关软硬件技术栈; 2、有计算产品落地经验(最好是tob paas/saas 项目或公有云项目,深度使用经验也算),对该领域用户画像和用户故事有深入理解,有打造世界级产品的热情; 3、熟悉NLP、CV相关的算法和技术,熟悉大模型训练、RL算法者优先; 4、有以下某一方向领域的经验:CUDA,RDMA,AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),ML for System,Distributed Storage。
工作职责
1、负责机器学习系统训练架构和产品的设计开发,支持火山方舟大模型平台和机器学习平台的产品业务; 2、负责充分利用各种异构计算(GPU、CPU、其他异构硬件)、存储(各种云存储)、网络(VPC、RDMA)等资源,支持主流的PyTorch、Megatron、TensorFlow等训练框架,支持大规模 LLM 预训练、Finetuning、强化学习等各种训练范式,支持大模型、自动驾驶、生信计算等各种业务场景下算法需求; 3、负责训练系统的产品化落地,打造算法工程师友好的、体验一流的公有云训练平台。
1、负责机器学习系统资源调度的设计和开发,支持火山方舟大模型平台和机器学习平台的产品业务; 2、负责多机房、多集群环境下的,各种异构计算(GPU、CPU、其他异构硬件)、存储(各种云存储)、网络(VPC、RDMA)等资源的最优化编排调度,在严格的多租隔离环境下,支持各种离线训练、在线推理等负载场景的调度需求,并实现整体资源的合理化、最大化利用。
1. 熟练掌握Linux环境下的Go/Java/Python等1-2种语言; 2. 具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯; 3. 熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch 或其他自研框架); 4. 熟悉 Kubernetes 架构和生态,熟悉 Docker/Containerd/Kata 等容器技术,有丰富的云原生机器学习系统实践和开发经验; 5. 掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护,熟悉Ray; 6. 有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分; 7. 有强烈的工作责任心,较好的学习、沟通能力和自驱力,能够快速的响应和行动; 8. 有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
1. 熟练掌握Linux环境下的Go/Java/Python等1-2种语言; 2. 具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯; 3. 熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch 或其他自研框架); 4. 熟悉 Kubernetes 架构和生态,熟悉 Docker/Containerd/Kata 等容器技术,有丰富的云原生机器学习系统实践和开发经验; 5. 掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护,熟悉Ray; 6. 有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分; 7. 有强烈的工作责任心,较好的学习、沟通能力和自驱力,能够快速的响应和行动; 8. 有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。