logo of bytedance

字节跳动混部调度研发工程师/架构师

社招全职E8104地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机相关专业优先;
2、具备扎实的数据结构算法基本功,熟悉常见的调度算法;
3、计算机理论基础扎实,例如对操作系统原理、TCP/IP等有比较深入的理解;
4、精通 Java/C++/Go 等编程语言之一或多个;
5、深入理解 Kubernetes、Mesos、Yarn 等一个或多个系统的调度实现;
6、熟悉容器化、轻量级虚拟机等相关技术;
7、具备较强的数据…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


字节跳动在 2015 年开启构建微服务体系,拥抱 Go 语言社区,自研微服务框架,采用 Kubernetes 和容器作为在线服务运行环境的统一标准。团队负责构建字节跳动内部容器云平台,为字节产品线提供运行基石;以超大容器集群规模整体支撑了字节内部产品线,涵盖:今日头条,抖音,西瓜视频等;同时覆盖了在线,离线,机器学习,推荐/广告/搜索等多种应用场景;在持续多年的快速增长中,积累了丰富的Kubernetes/容器超大规模应用经验,旨在打造覆盖多场景,多地域的千万级容器的大平台。其中,在微服务、流式计算等核心场景,通过在离线混部项目,有效实现 40% 的 CPU 资源节省,天级平均利用率达到 60% 以上。

1、参与混部和统一调度技术方案的架构设计和核心代码开发,通过混部和潮汐资源满足离线大数据/ML训练等场景的资源需求;
2、解决混部和并池场景下,多租户之间的资源协调、弹性出让、性能隔离等技术难题;
3、通过数据与机器学习算法给调度系统提供更加准确和智能的决策,在满足不同类型(在线服务/流批计算/训练推理/存储服务...)工作负载混跑时的 SLO 前提下,尽可能高提升机器利用率;
4、通过数据分析等手段,挖掘多种场景的潜在优化空间;
5、具备良好的沟通协调能力,推进混部技术在多种业务场景落地。
包括英文材料
学历+
数据结构+
算法+
TCP/IP+
Java+
C+++
还有更多 •••
相关职位

logo of antgroup
社招5年以上技术类-开发

蚂蚁HCS 算力服务是全站通算,智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术,为上层业务提供云原生服务,AI算力服务,全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的智算基础设施平台,HCS产品架构师的职责包括: ● 平台架构设计: 在日益复杂的AI异构的大背景下,主导设计并构建能够支撑大规模算力交付的平台架构,涵盖系统,内核,存储,网络,算力,kubernetes,确保平台具备高性能、高可用、弹性扩展和安全性,满足海量业务场景需求。 ● 算力交付体系构建: 建立高效的算力交付体系,优化资源调度和分配策略,实现算力的快速供给和弹性伸缩,降低业务获取算力的复杂度,和提升算力使用体验。 ● 算力优化架构:设计和建设智算时代的通智一体的算力架构,实现算力的分时,混部,隔离,一体化调度的架构,充分满足业务的同时,提升资源利用率 ● 经营体系搭建: 构建算力服务的经营体系,制定合理的资源定价模型和计费策略,建立完善的成本控制和收益分析机制,推动平台实现商业化运营。

更新于 2025-06-11杭州
logo of baidu
社招ACG

团队介绍:百度智能云AI计算部云原生AI计算团队致力于构建先进的通用和人工智能算力基础设施。在这个团队中,您将有机会与一流的工程师合作,深入参与到训练推理任务管理、异构资源调度、虚拟化混布、容器存储、分布式训练和推理等技术的创新和应用中。这是一个非常令人兴奋和有挑战性的团队,让我们携手,一起深入探索AI和云计算的无尽潜力 岗位职责: -负责大规模AI计算集群基础设施和产品的设计与研发工作,支撑内部业务和外部客户需求 - 构建异构多芯计算集群,优化GPU资源调度、虚拟化混布等核心能力,有效提升多芯供应能力和集群资源效率 -基于标准Kubernetes技术,负责云原生AI组件研发工作,包括训练推理服务编排、GPU资源调度和混布、AI存储、高性能网络等 -基于AI计算集群基础设施,设计和研发异构计算平台和解决方案,支持开发、训练、推理等多场景能力 - 提升服务和产品的稳定性,优化服务性能和可扩展性

更新于 2024-03-05北京
logo of baidu
社招ACG

团队介绍:百度智能云AI计算部云原生AI计算团队致力于构建先进的通用和人工智能算力基础设施。在这个团队中,您将有机会与一流的工程师合作,深入参与到训练推理任务管理、异构资源调度、虚拟化混布、容器存储、分布式训练和推理等技术的创新和应用中。这是一个非常令人兴奋和有挑战性的团队,让我们携手,一起深入探索AI和云计算的无尽潜力 岗位职责: -负责大规模AI计算集群基础设施和产品的设计与研发工作,支撑内部业务和外部客户需求 -构建异构多芯计算集群,优化GPU资源调度、虚拟化混布等核心能力,有效提升多芯供应能力和集群资源效率 -基于标准Kubernetes技术,负责云原生AI组件研发工作,包括训练推理服务编排、GPU资源调度和混布、AI存储、高性能网络等 -基于AI计算集群基础设施,设计和研发异构计算平台和解决方案,支持开发、训练、推理等多场景能力 -提升服务和产品的稳定性,优化服务性能和可扩展性

更新于 2025-04-14北京
logo of baidu
社招ACG

-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持智驾、AIGC、金融能源、智算中心客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -构建异构多元芯算力底座,支持国产化信创,支持GPU虚拟化和混部调度,提升AI应用资源效率 -无缝对接客户和云上AI开发平台,支持文心和开源大模型训练推理任务部署,提供训练容错和弹性伸缩能力 -对接客户基础设施环境构建异构算力平台解决方案,支持大模型训练/推理ToB交付 -探索业界最新技术方向,参与开源社区,提升百度云原生AI核心竞争力

更新于 2025-03-10北京