logo of bytedance

字节跳动公有云机器学习系统工程师-调度方向

社招全职A11907地点:北京状态:招聘

任职要求


1、熟练掌握Linux环境下的Go/Java/Python等1-2种语言;
2、具备扎实的计算机科学功底和编程能力,熟悉常见算法数据结构,具有良好的编程习惯;
3、熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch 或其他自研框架);
4、熟悉 Kubernetes 架构和生态,熟悉 Docker/Containerd/Kata 等容器技术,有丰富的云原生机器学习系统实践和开发经验;
5、掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
6、有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
7、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动;
8、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。

加分项:
1、有大规模集群在离线资源调度相关工作的实践经验,对K8S/Volcano/Yarn/Mesos等一到多个开源项目的调度实现有源码级的理解,熟悉容器化、轻量级虚拟机等相关技术;
2、熟悉常见调度算法,对多租户Quota治理、抢占、弹性、碎片、潮汐、混部、QoS等一到多个调度问题有深入理解和实践经验,具备较强的解决复杂问题的分析和建模能力,有GPU相关调度经验;
3、有以下某一方向领域的经验:CUDA,RDMA,AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),ML for System,Distributed Storage。

工作职责


1、负责机器学习系统资源调度的设计和开发,支持火山方舟大模型平台和机器学习平台的产品业务;
2、负责多机房、多集群环境下的,各种异构计算(GPU、CPU、其他异构硬件)、存储(各种云存储)、网络(VPC、RDMA)等资源的最优化编排调度,在严格的多租隔离环境下,支持各种离线训练、在线推理等负载场景的调度需求,并实现整体资源的合理化、最大化利用。
包括英文材料
Linux+
Go+
Java+
Python+
算法+
数据结构+
编程规范+
机器学习+
TensorFlow+
PyTorch+
Kubernetes+
Docker+
分布式系统+
Volcano+
Yarn+
Mesos+
CUDA+
相关职位

logo of bytedance
社招2年以上A252507

1、负责AML-机器学习平台的开发与优化,打造国内领先的聚焦AI开发者体验的机器学习平台; 2、从机器学习系统架构、云原生架构、公有云架构,等多个层面,进行技术探索和攻坚,帮助客户实现高性能、高资源利用率的高性能计算平台。

更新于 2023-09-06
logo of bytedance
社招2年以上A247110

1、负责AML-机器学习平台的开发与优化,打造国内领先的聚焦AI开发者体验的机器学习平台; 2、从机器学习系统架构、云原生架构、公有云架构,等多个层面,进行技术探索和攻坚,帮助客户实现高性能、高资源利用率的高性能计算平台。

更新于 2023-11-15
logo of dji
社招算法

1. 构建多云异构资源调度体系,整合多家云厂商的AI算力资源,设计优先级策略,实现跨平台资源池化管理和高效动态分配; 2. 设计数据智能路由方案,确保训练数据在混合云环境下高效流动,优化跨云数据同步效率; 3. 对接MLOps系统,实现训练任务编排、版本控制、模型监控等功能的深度集成; 4. 开发资源效能监控系统,实时追踪GPU利用率、任务排队时长等核心指标。

更新于 2025-04-08
logo of baidu
社招2年以上ACG

-负责千帆公有云平台业务工程端的研发工作 -与前端研发、算法研发和产品团队紧密合作,构建优秀的用户体验和功能 -参与需求分析、架构设计、问题定位分析、上线操作等工作 -参与架构及代码的优化迭代,支持日常运维并提升系统稳定性

更新于 2025-07-29