阿里云阿里云智能-百炼模型推理服务技术专家-北京/杭州
任职要求
1. 计算机/人工智能相关专业硕士及以上学历,熟练掌握C++和Python编程语言,和软件工程面向对象设计(OOP,OOD)等相关技术, 有很好的抽象能力。 2. 掌握性能优化方法论,能够快速定位系统瓶颈的原因,能够利用Roofline Model来计算IO、计算和带宽的理论极限,并用编程技术逼近极限。 3. …
工作职责
1. 多模态模型的推理功能开发和性能优化,包括对Qwen-VL、Qwen-Audio、Qwen-Omni等多模态输入/输出模型的功能支持和推理性能优化。 2. 分布式推理架构的研发,包括多机推理架构设计,P/D分离、A/F分离、VL模型分离架构的落地。 3. 推理引擎服务化,包括推理引擎如何接入线上服务平台,自动扩缩容和可观测性的适配,以及提升线上服务稳定性。

1. 多模态模型的推理功能开发和性能优化,包括对Qwen-VL、Qwen-Audio、Qwen-Omni等多模态输入/输出模型的功能支持和推理性能优化。 2. 分布式推理架构的研发,包括多机推理架构设计,P/D分离、A/F分离、VL模型分离架构的落地。 3. 推理引擎服务化,包括推理引擎如何接入线上服务平台,自动扩缩容和可观测性的适配,以及提升线上服务稳定性。
1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。

1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。