理想汽车AI大模型分布式推理专家

社招全职智能与信息技术地点：上海状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历，计算机、电子、通信、自动化等相关专业；
2. 熟练掌握C/C++编程语言，具备良好的数据结构及算法基础；
3. 具备深度学习推理加速经验，熟悉常见的优化技术，能够根据不同硬件平台进行针对性的…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责AI大模型的推理引擎和服务设计、研发和交付；
2. 负责AI大模型分布式调度方案设计、研发和交付；
3. 负责AI大模型推理性能分析和优化；
4. 负责大模型在异构 NPU 平台上编译、移植和优化；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

C+

C+++

数据结构+

还有更多 •••

登录查看完整学习资料

相关职位

混元大模型推理研发专家（深圳/北京/上海/杭州）

社招3年以上公共技术

1.深度协同算法团队，主导深度学习算法端到端推理系统的架构设计与落地实践，聚焦高吞吐、低延时核心目标，攻克大模型推理工程化落地关键技术瓶颈； 2.针对大模型推理全链路进行性能瓶颈深度剖析，通过算子优化、量化策略、资源调度等手段实现推理吞吐最大化；建立性能 - 成本评估体系，制定资源利用率极致优化方案，实现推理成本可控化； 3.主导大模型推理框架底层架构优化，完善框架功能模块（如动态批处理、推理缓存、容错机制）；构建工程化能力体系，提升框架易用性（API 设计、配置化能力）与可调试性（日志系统、性能埋点、调试工具链），支撑大规模推理服务稳定迭代。

更新于 2026-01-23深圳

阿里云智能-无影大模型AI系统专家-上海/杭州

社招3年以上云智能集团

1. 训练加速系统设计与优化 1) 主导千亿参数大模型的分布式训练架构设计，优化通信效率，突破显存与计算瓶颈。 2) 研发长序列训练加速技术，支持百万级上下文窗口训练，降低计算复杂度与内存占用。 3) 设计混合精度训练方案（FP16/FP8）与梯度累积策略，结合模型并行、流水线并行等技术，提升训练吞吐量 30% 以上。 2. 推理系统优化与工程化落地 1) 构建高性能推理引擎，基于 vLLM、TensorRT-LLM 等框架实现多模态模型的分布式推理，支持 MoE 架构与动态专家激活策略。 2) 研发模型压缩技术（量化、剪枝、LoRA），将端到端延迟降低，同时保持模型精度损失 3. 基础设施全流程优化 1) 优化训练与推理的 I/O 性能，通过异步并发、缓存预取等技术减少数据加载耗时。 2) 设计训练 - 推理一体化监控平台，实时追踪模型性能指标（如训练 loss 波动、推理 QPS），实现异常自动告警与弹性扩缩容。

更新于 2025-09-18杭州|上海

阿里云智能-无影大模型AI系统专家-上海/杭州

社招3年以上云智能集团

更新于 2026-02-08杭州|上海

通义实验室 - 面向生成式AI的大规模在线服务系统全栈性能优化- 阿里星

校招通义2026届秋

我们正在寻找业界顶尖的系统专家，加入我们的AI基础架构团队，共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力（大模型、AI Agent、多模态等）转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进，从顶层应用到底层硬件，全面提升AI服务的竞争力。具体职责包括（若你对以下一个或者多个方向感兴趣均欢迎投递）： 1. 大规模模型服务平台与智能调度系统设计： (1)负责承载大规模在线模型服务（Serving）平台的核心架构设计与演进，通过对底层推理引擎（如PAI平台提供）的深度适配与协同优化，实现极致的推理吞吐与资源利用率。 (2)设计并实现面向复杂混合负载（长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级）的上层智能请求调度与资源管理系统，通过与推理引擎的深度协同，动态调整调度策略，保障服务质量（SLA）并最大化云上服务的性价比。 2. 分布式基础设施与底层硬件优化： (1)负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化，针对张量并行、流水线并行等场景，优化跨节点通信（InfiniBand/RoCE, NVLink），降低端到端延迟。 (2)深入理解GPU、NPU等异构硬件架构与特性，负责从服务层面对底层计算、编译优化（由PAI等引擎团队提供）进行性能评测、分析与反馈，驱动端到端的硬件效能提升。 3. AI应用层运行时与算法协同优化： (1)深入AI Agent、检索增强生成（RAG）、多模态理解等复杂应用场景，设计并优化其专用的高效运行时（Runtime），解决长链条、多依赖、异步任务流的性能瓶颈。 (2)负责高性能向量检索（Vector Search）与图计算（Graph Computing）引擎的服务化与集成，优化其在RAG和复杂推理场景下的数据访问与计算效率，实现数据层与模型层的无缝高效协同。

更新于 2025-08-07北京|杭州|上海