阿里云阿里云智能-大模型推理优化专家/高级专家-杭州/北京

社招全职3年以上云智能集团2025-09-29地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 必备技能
（1）扎实的 C++/Python 编程功底，具备模块化设计能力。
（2）大模型推理框架（vLLM/SGLang等）经验，理解模型推理原理。
（3）分布式系统开发经验，熟悉缓存、微服务与容器化技术。
（4）Linux、C…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 核心系统研发
（1）设计与优化大模型推理服务框架与分布式缓存系统。
（2）支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。
（3）开发工具链与服务化能力，包括模型量化、转换、调度与生命周期管理。
2. 性能与稳定性优化
（1）优化推理服务框架的性能，包括引擎适配、生命周期管理和资源调度。
（2）深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。
（3）支持高性能通信协议、容错与负载均衡机制。
（4）提升系统可观测性，完善监控、告警与故障恢复体系。
3. 引擎与应用集成
（1）深度集成推理引擎、缓存系统和存储系统，优化访问模式与架构设计。
（2）满足大规模、多模态推理场景下的高吞吐与低延迟需求。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

Python+

大模型+

vLLM+

SGLang+

分布式系统+

还有更多 •••

登录查看完整学习资料

相关职位

智能信息-大模型推理优化专家/高级专家-北京/杭州

社招3年以上

1、主导大模型在线推理系统的性能攻坚，构建多节点多GPU的分布式推理架构，实现智能请求调度算法与异构硬件的极致性能调优； 2、研究低bit量化、稀疏化attention等解码加速技术，在保障精度前提下显著降低计算资源消耗； 3、设计高并发场景下的负载均衡方案，构建支持动态扩展的弹性计算架构，优化推理引擎运行时环境，实现毫秒级延迟与高QPS吞吐能力。

更新于 2025-11-30北京|杭州

阿里云智能-大模型算法专家/高级专家-北京/杭州

社招技术类-算法

1. 负责大模型（含多模态）及下游任务的训练及优化突破，包括但不限于：异构GPU混合训练和推理加速算法；对齐、强化学习、混合专家等大模型核心训练技术。 2. 分析和解决大模型在领域应用中的技术难题并进行突破，并与业界先进技术进行持续对比。 3. 持续关注业界最新研究动向和技术趋势，对技术方向研判选型，并进行落地。 4. 与产品和工程团队紧密合作，将先进的算法技术应用于实际产品开发。

更新于 2025-05-22北京|杭州

阿里云智能-大模型推理优化专家/高级专家-北京/上海/深圳/杭州

社招5年以上云智能集团

1.负责主流大模型（DeepSeek、通义、LLaMA等）的全栈性能优化，涵盖模型架构优化、训练/推理框架调优及底层算子优化，提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案，通过投机采样算法改进、MTP机制优化等框架级特性，提升MOE架构模型推理效率；并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性，提升集群级别的推理效率 3.完成 W8A8 等量化算法研发，并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构（NVIDIA/AMD GPU、国产化 NPU 等）进行深度硬件适配，开发高性能算子库与内存管理组件，实现跨平台性能优化与资源利用率的提升

更新于 2025-08-14北京|深圳|杭州

蚂蚁集团-GPU推理优化高级技术专家-杭州/北京/上海

社招7年以上技术类-开发

1、负责安全GPU推理引擎、GPU性能优化相关技术平台，解决安全大模型GPU部署的资源弹性、性能瓶颈问题 2、了解行业最新GPU、NPU等最技术优化方案以及在安全落地 3、带领团队完成Modelops平台相关项目管理，以及平台架构规划设计

更新于 2025-08-04杭州|北京|上海