logo of bytedance

字节跳动混部调度研发工程师/架构师

社招全职E8104地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机相关专业优先;
2、具备扎实的数据结构算法基本功,熟悉常见的调度算法;
3、计算机理论基础扎实,例如对操作系统原理、TCP/IP等有比较深入的理解;
4、精通 Java/C++/Go 等编程语言之一或多个;
5、深入理解 KubernetesMesosYarn 等一个或多个系统的调度实现;
6、熟悉容器化、轻量级虚拟机等相关技术;
7、具备较强的数据分析和建模能力;
8、关注业界计算基础设施相关发展方向,并有较强的热情。

有以下技术经验更佳:
1、深入了解 Cgroup、Cgroup v2、CFS、IOCost 等内核技术原理,具备相关开发调优经验;
2、深入了解 Docker/Containerd 等容器运行时技术原理;
3、过硬的系统问题分析经验和能力,能够解决复杂的系统问题;
4、过硬的底层系统问题分析经验和优化能力。

工作职责


字节跳动在 2015 年开启构建微服务体系,拥抱 Go 语言社区,自研微服务框架,采用 Kubernetes 和容器作为在线服务运行环境的统一标准。团队负责构建字节跳动内部容器云平台,为字节产品线提供运行基石;以超大容器集群规模整体支撑了字节内部产品线,涵盖:今日头条,抖音,西瓜视频等;同时覆盖了在线,离线,机器学习,推荐/广告/搜索等多种应用场景;在持续多年的快速增长中,积累了丰富的Kubernetes/容器超大规模应用经验,旨在打造覆盖多场景,多地域的千万级容器的大平台。其中,在微服务、流式计算等核心场景,通过在离线混部项目,有效实现 40% 的 CPU 资源节省,天级平均利用率达到 60% 以上。

1、参与混部和统一调度技术方案的架构设计和核心代码开发,通过混部和潮汐资源满足离线大数据/ML训练等场景的资源需求;
2、解决混部和并池场景下,多租户之间的资源协调、弹性出让、性能隔离等技术难题;
3、通过数据与机器学习算法给调度系统提供更加准确和智能的决策,在满足不同类型(在线服务/流批计算/训练推理/存储服务...)工作负载混跑时的 SLO 前提下,尽可能高提升机器利用率;
4、通过数据分析等手段,挖掘多种场景的潜在优化空间;
5、具备良好的沟通协调能力,推进混部技术在多种业务场景落地。
包括英文材料
学历+
数据结构+
算法+
TCP/IP+
Java+
C+++
Go+
Kubernetes+
Mesos+
Yarn+
数据分析+
内核+
Docker+
相关职位

logo of kuaishou
社招3年以上D0032

1、负责快手搜推广服务的云原生管控方向,建设云上的平台化服务管控、服务调度能力; 2、结合服务场景设计相关调度策略、智能弹性伸缩能力、潮汐混部能力,提高集群硬件利用率。

更新于 2025-02-12
logo of baidu
社招MEG

-负责机器学习工程架构研发工作,包括推荐模型、CV、NLP等方向,包括预估架构、特征工程、模型训练、推理优化、混部调度等 -负责大数据处理、系统稳定性、扩展技术研发 -优化在线的高并发高可用服务架构以及离线的高负载大数据量的服务架构 -和团队一起攻克高性能、高并发、高可用性等各种不同技术场景下的技术挑战

更新于 2024-12-04
logo of baidu
社招ACG

-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持智驾、AIGC、金融能源、智算中心客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -构建异构多元芯算力底座,支持国产化信创,支持GPU虚拟化和混部调度,提升AI应用资源效率 -无缝对接客户和云上AI开发平台,支持文心和开源大模型训练推理任务部署,提供训练容错和弹性伸缩能力 -对接客户基础设施环境构建异构算力平台解决方案,支持大模型训练/推理ToB交付 -探索业界最新技术方向,参与开源社区,提升百度云原生AI核心竞争力

更新于 2025-03-10
logo of baidu
社招2年以上ACG

-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持智驾、AIGC、金融能源、智算中心客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -构建异构多元芯算力底座,支持国产化信创,支持GPU虚拟化和混部调度,提升AI应用资源效率 -无缝对接客户和云上AI开发平台,支持文心和开源大模型训练推理任务部署,提供训练容错和弹性伸缩能力 -对接客户基础设施环境构建异构算力平台解决方案,支持大模型训练/推理ToB交付 -探索业界最新技术方向,参与开源社区,提升百度云原生AI核心竞争力

更新于 2024-10-08