饿了么饿了么-模型训练推理优化专家-上海
任职要求
1、计算机相关专业本科及以上学历,具有扎实的工程算法基础,掌握各种编译、调试、性能分析工具 2、极佳的工程实现能力,精通C/C++、Python,熟悉常用的机器学习框架(如TensorFlow、PyTorch、vLLM等) 3、具备良好的计算机体系结构知识,理解异构GPU硬件的工作原理,了解异构计算(CUDA) 4、具备良好的沟通能力和团队合作精神,对新技术充满热情,具备强烈的责任感和学习能力
工作职责
负责饿了么深度模型和超大规模训练推理,支持万亿规模的稠密及稀疏训练推理优化,结合分布式系统、高性能计算、异构计算,探索性能边界,支撑超大规模模型的训练及推理部署 我们关注超大规模模型训练及推理系统,为深度学习模型提供算力基座 岗位职责: 1、支持百亿-万亿规模的稠密模型、稀疏模型训练,在千卡集群上,实现多种分布式训练架构,以及强化学习训推一体复用等技术,消除各类大规模模型分布式训练的瓶颈 2、支持大规模深度模型的推理部署性能优化,通过高性能计算、分布式计算、异构计算、编译优化等手段,在千卡集群上,解决大尺寸模型的推理性能瓶颈 3、深入工程和算法协同,结合大规模推荐、大语言、多模态算法,探索适合业务的创新训练范式
1.负责主流大模型(DeepSeek、通义、LLaMA等)的全栈性能优化,涵盖模型架构优化、训练/推理框架调优及底层算子优化,提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案,通过投机采样算法改进、MTP机制优化等框架级特性,提升MOE架构模型推理效率;并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性,提升集群级别的推理效率 3.完成 W8A8 等量化算法研发,并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构(NVIDIA/AMD GPU、国产化 NPU 等)进行深度硬件适配,开发高性能算子库与内存管理组件,实现跨平台性能优化与资源利用率的提升
1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计,优化通信效率,突破显存与计算瓶颈。 2) 研发长序列训练加速技术,支持百万级上下文窗口训练,降低计算复杂度与内存占用。 3) 设计混合精度训练方案(FP16/FP8)与梯度累积策略,结合模型并行、流水线并行等技术,提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎,基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理,支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术(量化、剪枝、LoRA),将端到端延迟降低,同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能,通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台,实时追踪模型性能指标(如训练 loss 波动、推理 QPS),实现异常自动告警与弹性扩缩容。
1、设计、开发和维护机器学习平台及相关工具,支持nlp,cv等模型的训练和推理; 2、负责训练&推理优化,包括但不限于GPU计算加速、网络通信优化,存储性能提升等; 3、联合算法团队,搭建及优化分布式机器学习训练及推理系统,能够根据数据特点从算法和工程角度进行优化和调整; 4、构建高可用的模型服务,保证服务的稳定性、高效性。让平台不断适应业务发展的需求和趋势; 5、参与开源社区的贡献,推动公司技术在业界的影响。