logo of xiaohongshu

小红书大规模GPU集群调度优化工程师/专家

社招全职引擎地点:北京 | 上海状态:招聘

任职要求


任职资格:
1、熟悉云原生生态及工具,如Kubernetes、Kubeflow、Volcano等,有GPU虚拟化、GPU集群调度、故障容错、高速存储/网络等经验优先;
2、了解大模型基本概念及训推生命周期,如预训练、微调、对齐、推理、部署等基本概念及流程,能够支撑大模型平台构建&优化即可;
3、熟悉大规模GPU训练、推理集群的调优技术,能结合平台调度、网络拓扑优化等提升集群训练推理效率。
4、熟练掌握 PythonGolangC++ 或其他编程语言中的一门或多门,熟悉至少一种深度学习框架,如PyTorchTensorFlowPaddlePaddle等。
5、具备优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分。
加分项 : 
1、有大模型场景下负载特征分析、GPU集群调度&性能优化、高性能网络/存储等实践经验或者相关研究成果优先;
2、有GPU虚拟化落地、在线/离线场景混合部署经验优先;
3、有大规模GPU集群上预训练、推理等场景端到端优化经验优先;

工作职责


大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界!
工作职责:
1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。
2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。
3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。
包括英文材料
Kubernetes+
大模型+
性能调优+
Python+
Go+
C+++
深度学习+
PyTorch+
TensorFlow+
相关职位

logo of bytedance
社招A37812

团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、以自研推理引擎为中心的在线推理服务和近离线批式推理任务框架,负责超大规模机器学习系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关,为搜索、推荐、审核等业务提供深度模型推理全场景端到端解决方案; 2、针对PyTorch、TensorFlow等框架提供高自动化、极致性能的模型优化方案,技术方案不限于子图匹配、编译优化、模型量化、异构硬件等; 3、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU超卖、任务编排等方式不断提升算力利用率; 4、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2024-05-08
logo of momenta
社招

更新于 2024-12-30
logo of bytedance
社招A94989A

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统资源调度的设计和开发,服务于各方向场景(NLP/CV/Speech等)的模型训练、模型评估和模型推理; 2、负责多种异构资源(GPU、CPU、其他异构硬件)的最优化编排,实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用; 3、负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度,充分发挥大规模分布式集群的计算能力; 4、负责多机房、多地域、多云场景的在离线任务/服务调度,实现负载的合理化分布; 5、负责资源的复用和利用率的提升,更好的利用大模型场景中的预训练、后训练、离线推理、评估等任务的特性,优化排队、优先级、抢占等逻辑,提升集群利用率。

更新于 2024-12-09
logo of bytedance
社招A247212

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统资源调度的设计和开发,服务于各方向场景(NLP/CV/Speech等)的模型训练、模型评估和模型推理; 2、负责多种异构资源(GPU、CPU、其他异构硬件)的最优化编排,实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用; 3、负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度,充分发挥大规模分布式集群的计算能力; 4、负责多机房、多地域、多云场景的在离线任务/服务调度,实现负载的合理化分布; 5、负责资源的复用和利用率的提升,更好的利用大模型场景中的预训练、后训练、离线推理、评估等任务的特性,优化排队、优先级、抢占等逻辑,提升集群利用率。

更新于 2024-12-09