饿了么饿了么-模型训练推理优化专家-上海

社招全职2年以上技术类-开发2025-10-28地点：上海状态：招聘

扫码手机上打开

任职要求

1、计算机相关专业本科及以上学历，具有扎实的工程算法基础，掌握各种编译、调试、性能分析工具
2、极佳的工程实现能力，精通C/C++、Python，熟悉常用的机器学习框架（如TensorFlow、Py…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

负责饿了么深度模型和超大规模训练推理，支持万亿规模的稠密及稀疏训练推理优化，结合分布式系统、高性能计算、异构计算，探索性能边界，支撑超大规模模型的训练及推理部署
我们关注超大规模模型训练及推理系统，为深度学习模型提供算力基座

岗位职责：
1、支持百亿-万亿规模的稠密模型、稀疏模型训练，在千卡集群上，实现多种分布式训练架构，以及强化学习训推一体复用等技术，消除各类大规模模型分布式训练的瓶颈
2、支持大规模深度模型的推理部署性能优化，通过高性能计算、分布式计算、异构计算、编译优化等手段，在千卡集群上，解决大尺寸模型的推理性能瓶颈
3、深入工程和算法协同，结合大规模推荐、大语言、多模态算法，探索适合业务的创新训练范式

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

算法+

C+

C+++

Python+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-大模型推理优化专家/高级专家-北京/上海/深圳/杭州

社招5年以上云智能集团

1.负责主流大模型（DeepSeek、通义、LLaMA等）的全栈性能优化，涵盖模型架构优化、训练/推理框架调优及底层算子优化，提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案，通过投机采样算法改进、MTP机制优化等框架级特性，提升MOE架构模型推理效率；并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性，提升集群级别的推理效率 3.完成 W8A8 等量化算法研发，并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构（NVIDIA/AMD GPU、国产化 NPU 等）进行深度硬件适配，开发高性能算子库与内存管理组件，实现跨平台性能优化与资源利用率的提升

更新于 2025-08-14北京|深圳|杭州

阿里云智能-无影大模型AI系统专家-上海/杭州

社招3年以上云智能集团

1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计，优化通信效率，突破显存与计算瓶颈。 2) 研发长序列训练加速技术，支持百万级上下文窗口训练，降低计算复杂度与内存占用。 3) 设计混合精度训练方案（FP16/FP8）与梯度累积策略，结合模型并行、流水线并行等技术，提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎，基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理，支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术（量化、剪枝、LoRA），将端到端延迟降低，同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能，通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台，实时追踪模型性能指标（如训练 loss 波动、推理 QPS），实现异常自动告警与弹性扩缩容。

更新于 2025-09-18杭州|上海

算法系统优化专家（MLSys）云侧

社招5年以上研发类

1、设计、开发和维护机器学习平台及相关工具，支持nlp，cv等模型的训练和推理； 2、负责训练&推理优化，包括但不限于GPU计算加速、网络通信优化,存储性能提升等； 3、联合算法团队，搭建及优化分布式机器学习训练及推理系统，能够根据数据特点从算法和工程角度进行优化和调整； 4、构建高可用的模型服务，保证服务的稳定性、高效性。让平台不断适应业务发展的需求和趋势； 5、参与开源社区的贡献，推动公司技术在业界的影响。

更新于 2025-04-28南京|上海

阿里云智能-AI异构软硬件结合研发专家-上海

社招技术类-开发

1. 负责研发AI异构计算软件栈，通过结合不同加速芯片的特性，实现AI计算的全链路优化，助力打造在业界具有竞争力的高可靠、高性能、高效率的大规模AI算力基础设施。 2. 结合具体业务场景，开展软硬件协同优化和技术创新（包括但不限于算子优化与编译、量化压缩，计算通讯融合，系统调度、分布式推理优化等工程任务），为实际业务提供卓越的性能和成本效益。 3. 洞察人工智能及深度学习的发展趋势，积极参与下一代AI基础设施的设计与研发。

更新于 2025-07-02上海