小红书GPU调度研发工程师
任职要求
1、熟悉云原生生态及工具,如Kubernetes、Kubeflow、Volcano等,有GPU虚拟化、GPU集群调度、故障容错、高速存储/网络等经验优先; 2、了解大模型基本概念及训推生命周期,如预训练、微调、对齐、推理、部署等基本概念及流程,能够支撑大模型平台构建&优化即可; 3、熟悉大规模GPU训练、推理集群的调优技术,能结合平台调度、网络拓扑优化等提升集群训练推理效率。 4、熟练掌握 Python、Golang、C++ 或其他编程语言中的一门或多门,熟悉至少一种深度学习框架,如PyTorch、TensorFlow、PaddlePaddle等。 5、具备优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分。 加分项 : 1、有大模型场景下负载特征分析、GPU集群调度&性能优化、高性能网络/存储等实践经验或者相关研究成果优先; 2、有GPU虚拟化落地、在线/离线场景混合部署经验优先; 3、有大规模GPU集群上预训练、推理等场景端到端优化经验优先。
工作职责
大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。
1.参与腾讯太极统一GPU调度平台开发,负责万卡GPU集群配额管理、任务排队、弹性任务、跨集群等功能和性能优化; 2.优化异构AI芯片在多种任务作业之间的全局最优匹配,实现全局最佳利用率; 3.支持腾讯混元大模型、广告、视频号等众多业务场景的离线、在线GPU作业,保障平台高性能高稳定运行。
1、负责快手大语言/多模态大模型/推荐大模型 机器学习系统资源调度的设计和开发,包括模型训练、模型推理、模型评测; 2、负责计算资源、高速网络资源、存储资源的最优调度算法、 及平台上异构资源(GPU、CPU、其他异构硬件)的最优化编排和精细化配额管理,充分发挥集群的硬件计算能力; 3、负责多AZ、多地域的资源混合部署及联邦调度; 4、探索大模型调度及训推/调度结合的业界前沿课题,在国际顶级会议上发表相关论文。
团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责机器学习系统资源调度的设计和开发,服务于各方向场景(NLP/CV/Speech等)的模型训练、模型评估和模型推理; 2、负责多种异构资源(GPU、CPU、其他异构硬件)的最优化编排,实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用; 3、负责通过技术手段实现计算资源、RDMA高速网络资源、存储资源的最优调度,充分发挥大规模分布式集群的计算能力; 4、负责多机房、多地域、多云场景的在离线任务/服务调度,实现负载合理化分布。