通义通义大模型事业部-大模型推理系统研发工程师-北京/杭州

社招全职3年以上技术类-开发2026-06-01地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

● 计算机、软件工程、人工智能相关专业硕士及以上学历。
● 扎实的工程能力，优良的编程风格，熟悉Python/C++/Go等编程语言和常用设计模式，具备复杂分布式系统的设计开发调试能力。
● 熟悉深度学习的基础理论概念，了解主流模型算法，能够熟练应用PyTorch、TensorFlow等框架。
● 熟悉计算机体系结构基础知识，有扎实的推理引擎优化（vLLM、SGLang等）、调度/网络/存储等方面分布式系统开发、模型算法优化（量化/稀疏等）、高性能Kernel开发（CUDA/Triton/ROCM等）等方面的经验。
● 熟悉PD分离、跨机EP、请求调度…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

● 为大语言模型和多模态模型设计和实现高效的分布式推理架构，支持多节点、多角色、多模型的异构复杂部署模式，以统一、可扩展的方式支持PD分离、多模态多模型分离等部署方式，以及灵活的配比、伸缩等能力。
● 设计和实现智能的请求与模型调度能力，在高度动态的负载工况下以及多模态模型异构的子模型间做高效的调度，让分布式推理系统具备充分的动态性和适应能力，提升服务的整体效率和质量。
● 对分布式和多模态推理引擎运行时进行深度优化，提升分布式推理的效率和稳定性：提升组件间协调的效率，降低请求延迟、提升服务吞吐；结合各类推理引擎层面优化以及量化等算法方法提升多模态模型推理效率，同时保证模型效果；提升系统在高并发下的鲁棒性，确保极端负载下的稳定性和性能；引入容错机制、自动恢复和监控报警系统，保证系统的高可用性。
● 为分布式推理实现高效、通用的数据平面，以统一的方式支持各类数据传输（如PD分离中的KV cache、多模态推理中的中间结果）和存储（KV cache storage）等需求。
● 持续关注并跟进业界技术发展，尤其是超长上下文、COT思维链、多模态融合等方向；积极尝试和探索新的推理优化方向，提出并验证创新性的解决方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

C+++

Go+

设计模式+

分布式系统+

深度学习+

算法+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

达摩院-具身智能大模型研发工程师-北京/杭州

社招1年以下技术类-算法

我们正在构建面向下一代机器人智能的具身智能大模型（Embodied Foundation Model），致力于实现机器人在真实世界中的自主感知、理解、规划与操作能力。本岗位将参与具身感知、具身规划与操作基础模型的研发，包括多模态理解、3D空间建模、机器人决策推理以及大规模仿真训练等核心方向。你将与算法工程师、机器人系统工程师以及规控工程师团队密切合作，推动具身智能从模拟环境走向真实世界应用。以下方向可根据候选人背景匹配（不限于）： 1. 具身感知基础模型 ○ 多模态视觉语言模型（Vision-Language Model） ○ 3D感知建模（Depth / Occupancy / NeRF / Scene Graph） ○ 视频理解与时序建模 ○ 开放世界场景理解（Open-world Perception） 2. 具身规划与决策大模型 ○ 长时序任务规划（Long-horizon Planning） ○ LLM + Robotics 推理系统 ○ Tool-use 与 Agent 系统设计 ○ 多机器人协同决策 3. 具身操作基础模型 ○ 视觉-语言-动作模型 (VLA) 以及视频-动作模型（Video-Action Model） ○ 模仿学习 (Behavior Cloning, DAgger等) ○ Offline & Online Reinforcement Learning ○ 多来源数据融合（Human + Robot + Simulation） 4. 大规模仿真与Scaling Law验证 ○ GPU大规模并行仿真 ○ Sim2Real迁移 ○ 数据生成与自动标注系统 ○ Scaling Law验证与数据效率研究 5. 推理优化与系统方向 ○ 大模型推理加速 ○ 多GPU/多节点训练 ○ 模型压缩与蒸馏 ○ 机器人端侧部署优化岗位职责： ● 参与具身智能基础模型算法设计与研发 ● 构建机器人多模态数据训练体系 ● 推动模型在真实机器人平台上的落地验证 ● 跟踪前沿研究进展并推动技术创新 ● 与跨团队协作完成系统级集成

更新于 2026-03-27北京|杭州

大模型推理引擎研发工程师（深圳/北京/上海/杭州）

社招3年以上公共技术

1.研发及优化大模型推理引擎、PD分离推理调度系统； 2.支持主流GPU和异构AI芯片，优化大模型推理性能，打造极致性能成本优势。

更新于 2025-12-28北京

混元大模型推理研发高级工程师（深圳/北京/上海/杭州）

社招1年以上公共技术

1.配合算法工程师，推动深度学习相关算法的落地，打造高吞吐、低延时的推理系统； 2.优化大模型推理性能，提升吞吐并控制成本； 3.优化大模型推理框架，提升框架易用性和可调试性。

更新于 2025-12-18深圳

大模型推理服务（MaaS方向）研发工程师/专家

社招引擎

DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品，通过标准化API接口提供LLM/MLLM等大模型推理服务，致力于为AI应用开发者提供品类丰富、数量众多的模型选择，并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务，各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。工作职责： 1、参与/负责大模型推理服务平台（MaaS）的架构设计、系统研发、产品研发等工作； 2、深入参与面向大模型场景的请求调度、异构资源调度、引擎优化等核心工作，实现千亿级Token并行推理平台； 3、为内部产品线提供解决方案，协助公司内用户解决大模型应用过程中业务在平台上的使用问题。

北京|上海|深圳