小红书大规模GPU集群调度优化工程师/专家

社招全职引擎地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

任职资格：
1、熟悉云原生生态及工具，如Kubernetes、Kubeflow、Volcano等，有GPU虚拟化、GPU集群调度、故障容错、高速存储/网络等经验优先；
2、了解大模型基本概念及训推生命周期，如预训练、微调、对齐、推理、部署等基本概念及流程，能够支撑大模型平台构建&优化即可；
3、熟悉大规模GPU训练、推理集群的调优技术，能结合平台调度、网络拓扑优化等提升集群训练推理效率。
4、熟练掌握 Python、Golang、C+…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

大模型具备很强的泛化及理解世界能力，在小红书内的众多生产场景遍地开花，大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上，如何能够通过高效的GPU调度策略，使大家不仅能丝滑地完成训练及部署任务，同时也能充分激发大规模GPU集群的效能，是行业公认的关键挑战。在这里，你可以聚焦LLM场景，接触到超大规模GPU集群，并使用真实负载数据进行深入分析及技术探索。欢迎加入我们，一起探索领先技术改变世界！
工作职责：
1、负责万卡规模GPU集群效能分析及优化，通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段，提升大规模GPU集群的整体使用效率。
2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps，与下游云原生平台深度融合，支撑大模型在公司内各业务生产链路稳定高效地落地。
3、持续关注业界最新的GPU资源调度相关技术动态，探索建设业界领先的资源调度策略及方法，构建下一代大规模AI资源调度系统。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Kubernetes+

大模型+

性能调优+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理引擎工程师/专家-Seed

社招A37812

团队介绍：字节跳动豆包大模型团队（Seed）成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限，并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、以自研推理引擎为中心的在线推理服务和近离线批式推理任务框架，负责超大规模机器学习系统架构的设计开发，解决系统高并发、高可靠性、高可扩展性等技术难关，为搜索、推荐、审核等业务提供深度模型推理全场景端到端解决方案； 2、针对PyTorch、TensorFlow等框架提供高自动化、极致性能的模型优化方案，技术方案不限于子图匹配、编译优化、模型量化、异构硬件等； 3、面向全球多地域超大规模GPU算力集群，通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率； 4、与算法部门深度合作，进行算法与系统的联合优化。

更新于 2024-05-08北京

资深云原生基础架构工程师/专家

社招

无

更新于 2024-12-30北京|苏州

阿里云智能-云网络系统研究工程师（AI方向）-杭州

社招3年以上云智能集团

1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计，覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈，提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术，系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境，设计并落地面向 AI 流量的多路径传输优化机制，实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点，完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发，构建可快速迭代的原型系统，验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造，推动方案产品化落地，并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略，从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划，识别热点与瓶颈，落地针对性优化措施，保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型，设计并研发超大规模网络分析与智能运维系统，提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景，如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势，并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享，增强团队和个人在业界的技术影响力。

更新于 2025-12-24杭州

大模型训练调度工程师/专家-Seed

社招A94989A

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统资源调度的设计和开发，服务于各方向场景（NLP/CV/Speech等）的模型训练、模型评估和模型推理； 2、负责多种异构资源（GPU、CPU、其他异构硬件）的最优化编排，实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用； 3、负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度，充分发挥大规模分布式集群的计算能力； 4、负责多机房、多地域、多云场景的在离线任务/服务调度，实现负载的合理化分布； 5、负责资源的复用和利用率的提升，更好的利用大模型场景中的预训练、后训练、离线推理、评估等任务的特性，优化排队、优先级、抢占等逻辑，提升集群利用率。

更新于 2024-12-09杭州