阿里云阿里云智能-百炼模型推理服务技术专家-北京/杭州
任职要求
1. 计算机/人工智能相关专业硕士及以上学历,熟练掌握C++和Python编程语言,和软件工程面向对象设计(OOP,OOD)等相关技术, 有很好的抽象能力。 2. 掌握性能优化方法论,能够快速定位系统瓶颈的原因,能够利用Roofline Model来计算IO、计算和带宽的理论极限,并用编程技术逼近极限。 3. …
工作职责
1. 多模态模型的推理功能开发和性能优化,包括对Qwen-VL、Qwen-Audio、Qwen-Omni等多模态输入/输出模型的功能支持和推理性能优化。 2. 分布式推理架构的研发,包括多机推理架构设计,P/D分离、A/F分离、VL模型分离架构的落地。 3. 推理引擎服务化,包括推理引擎如何接入线上服务平台,自动扩缩容和可观测性的适配,以及提升线上服务稳定性。
负责阿里云产品安全能力前沿技术的探索与落地,包括但不限于以下方向: 1. AI应用安全:为阿里云内部平台及“百炼”大模型平台构建并完善AI应用所需的基础安全能力,保障AI应用从训练到推理全流程的安全性; 2. Confidential AI(机密AI):参与机密计算(Confidential Computing)基础架构及核心组件的设计、开发与运维,支持客户及内部服务实现 Confidential AI 功能。
1. 负责与语音大模型算法同学合作,将大模型TTS、ASR、Music、Audio等相关算法模型工程。 2. 负责服务端和移动端的大模型语音能力原型实现、性能优化等。 3. 与sdk和服务端同学合作,将算法引擎落地到各条业务线,如百炼、智能语音交互平台等。
1. 负责百炼平台大模型调优与部署等AI工具链产品化落地; 2. 负责百炼平台的调优模型推理、模型评测、模型调优、模型广场等的模块的架构设计和开发工作; 3. 了解技术使用场景和优缺点,能够就复杂技术问题,提供解决方案并执行落地,同时对上下游技术团队及技术架构有完整的了解; 4. 基于业务需求和技术洞察,在调优后模型的推理服务方面,进行技术规划并落地。
1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。