logo of bytedance

字节跳动混部调度研发工程师/架构师

社招全职E8104地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机相关专业优先;
2、具备扎实的数据结构算法基本功,熟悉常见的调度算法;
3、计算机理论基础扎实,例如对操作系统原理、TCP/IP等有比较深入的理解;
4、精通 Java/C++/Go 等编程语言之一或多个;
5、深入理解 Kubernetes、Mesos、Yarn 等一个或多个系统的调度实现;
6、熟悉容器化、轻量级虚拟机等相关技术;
7、具备较强的数据…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


字节跳动在 2015 年开启构建微服务体系,拥抱 Go 语言社区,自研微服务框架,采用 Kubernetes 和容器作为在线服务运行环境的统一标准。团队负责构建字节跳动内部容器云平台,为字节产品线提供运行基石;以超大容器集群规模整体支撑了字节内部产品线,涵盖:今日头条,抖音,西瓜视频等;同时覆盖了在线,离线,机器学习,推荐/广告/搜索等多种应用场景;在持续多年的快速增长中,积累了丰富的Kubernetes/容器超大规模应用经验,旨在打造覆盖多场景,多地域的千万级容器的大平台。其中,在微服务、流式计算等核心场景,通过在离线混部项目,有效实现 40% 的 CPU 资源节省,天级平均利用率达到 60% 以上。

1、参与混部和统一调度技术方案的架构设计和核心代码开发,通过混部和潮汐资源满足离线大数据/ML训练等场景的资源需求;
2、解决混部和并池场景下,多租户之间的资源协调、弹性出让、性能隔离等技术难题;
3、通过数据与机器学习算法给调度系统提供更加准确和智能的决策,在满足不同类型(在线服务/流批计算/训练推理/存储服务...)工作负载混跑时的 SLO 前提下,尽可能高提升机器利用率;
4、通过数据分析等手段,挖掘多种场景的潜在优化空间;
5、具备良好的沟通协调能力,推进混部技术在多种业务场景落地。
包括英文材料
学历+
数据结构+
算法+
TCP/IP+
Java+
C+++
还有更多 •••
相关职位

logo of kuaishou
社招3-5年J0011

团队负责快手可灵在线推理服务的GPU资源利用,为 AI 视频生成模型提供算力基石。GPU集群算力规模大,且随着可灵业务持续快速增长中,团队积累了丰富的 GPU 资源调度与优化经验,旨在打造覆盖多场景、多地域的万卡级 GPU 算力平台。其中,在推理服务、模型训练等核心场景,通过算力调度、弹性伸缩、虚拟化混部等技术实现了GPU利用率的高水位。 1、参与GPU利用率下钻指标的建设及分析,挖掘潜在的GPU利用率提升手段; 2、通过算力调度策略,协同同步业务的资源供给; 3、参与虚拟化混部技术方案的架构设计和核心代码开发,协同推动方案落地,通过混部和潮汐资源提升面向业务的GPU供给能力; 4、参与模型推理执行优化,设计模型推理执行流水线。

更新于 2026-04-09北京
logo of kuaishou
社招3年以上D0032

1、负责快手搜推广服务的云原生管控方向,建设云上的平台化服务管控、服务调度能力; 2、结合服务场景设计相关调度策略、智能弹性伸缩能力、潮汐混部能力,提高集群硬件利用率。

更新于 2025-02-12杭州
logo of bilibili
社招5年以上技术类

1.大模型训练&推理资源调度系统的设计与开发,服务于各算法方向的大模型训练、模型评估和模型推理场景; 2.优化大规模分布式异构计算集群编排调度,实现潮汐调度、混部调度能力,提升GPU资源利用率; 3.与算法和数据团队协作,制定资源优化策略,支持平台对大模型和多模态模型任务的高效处理;

更新于 2026-03-23上海
logo of baidu
社招MEG

-负责机器学习工程架构研发工作,包括推荐模型、CV、NLP等方向,包括预估架构、特征工程、模型训练、推理优化、混部调度等 -负责大数据处理、系统稳定性、扩展技术研发 -优化在线的高并发高可用服务架构以及离线的高负载大数据量的服务架构 -和团队一起攻克高性能、高并发、高可用性等各种不同技术场景下的技术挑战

更新于 2024-12-04北京