智能互联阿里云智能-百炼模型服务运行时技术专家/高级专家-杭州/北京

社招全职4年以上2026-04-03地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 必备技能
（1）扎实的 C++/Python 编程功底，具备模块化设计能力。
（2）大模型推理框架（vLLM/SGLang等）经验，理解模型推理原理。
（3）分布式系统开发经验，熟悉缓存、微服务与容器化技术。
（4）Linux、C…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 核心系统研发
（1）设计与优化大模型推理服务框架与分布式缓存系统。
（2）支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。
（3）开发工具链与服务化能力，包括模型量化、转换、调度与生命周期管理。
2. 性能与稳定性优化
（1）优化推理服务框架的性能，包括引擎适配、生命周期管理和资源调度。
（2）深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。
（3）支持高性能通信协议、容错与负载均衡机制。
（4）提升系统可观测性，完善监控、告警与故障恢复体系。
3. 引擎与应用集成
（1）深度集成推理引擎、缓存系统和存储系统，优化访问模式与架构设计。
（2）满足大规模、多模态推理场景下的高吞吐与低延迟需求。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

Python+

大模型+

vLLM+

SGLang+

分布式系统+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-百炼模型服务运行时技术专家/高级专家-杭州/北京

社招4年以上云智能集团

1. 核心系统研发（1）设计与优化大模型推理服务框架与分布式缓存系统。（2）支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。（3）开发工具链与服务化能力，包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化（1）优化推理服务框架的性能，包括引擎适配、生命周期管理和资源调度。（2）深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。（3）支持高性能通信协议、容错与负载均衡机制。（4）提升系统可观测性，完善监控、告警与故障恢复体系。 3. 引擎与应用集成（1）深度集成推理引擎、缓存系统和存储系统，优化访问模式与架构设计。（2）满足大规模、多模态推理场景下的高吞吐与低延迟需求。

更新于 2026-01-07北京|杭州

阿里云智能-百炼模型推理服务技术专家-北京/杭州

社招3年以上云智能集团

1. 多模态模型的推理功能开发和性能优化，包括对Qwen-VL、Qwen-Audio、Qwen-Omni等多模态输入/输出模型的功能支持和推理性能优化。 2. 分布式推理架构的研发，包括多机推理架构设计，P/D分离、A/F分离、VL模型分离架构的落地。 3. 推理引擎服务化，包括推理引擎如何接入线上服务平台，自动扩缩容和可观测性的适配，以及提升线上服务稳定性。

更新于 2026-01-19北京|杭州

阿里云智能-百炼模型推理服务技术专家-北京/杭州

社招3年以上

更新于 2026-04-03北京|杭州

阿里云智能-百炼模型控制台产品专家-杭州/北京

社招2年以上云智能集团

主导百炼模型控制台（PC+移动端）体系化建设：打造全球一致、高转化的一站式企业级MaaS体验平台。 1. 设计覆盖“发现→试用→调用→管理→计费”的端到端产品架构，统一交互规范，提升平台专业性与一致性； 2. 统筹国内外多端体验，在核心功能上保持全球统一，同时适配本地合规与语言、计费等区域需求； 3. 聚焦开发者“首用即成功”，通过 Playground、示例模板和参数调优降低使用门槛，优化注册到付费的转化路径； 4. 建立数据驱动的体验评估与迭代机制，结合用户行为与反馈持续提升留存与满意度。

更新于 2026-07-20北京|杭州