阿里云阿里云智能-百炼模型服务运行时技术专家/高级专家-杭州/北京
任职要求
1. 必备技能 (1)扎实的 C++/Python 编程功底,具备模块化设计能力。 (2)大模型推理框架(vLLM/SGLang等)经验,理解模型推理原理。 (3)分布式系统开发经验,熟悉缓存、微服务与容器化技术。 (4)Linux、C…
工作职责
1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。
1. 负责百炼Agent应用层infra对接阿里云的建设,包括AgentScope运行时以及工具沙箱和阿里云云资源和云服务的对接、Agent部署、和算法适配。 2. 负责百炼Agent在阿里云和企业场景效果的调优。 3. 从阿里云数据源开始,为Agent服务的Data Connector体系的设计和建设。 4. 形成系统的Agent评测体系,沉淀为Reward Model. 5. 负责Agent RL/Tuning相关的算法和工程链路、数据反馈链路的构建。 6. 负责更加通用的Agent调优机制的设计,融入百炼Agent智能体创建流程。 7. 负责阿里云或者企业场景中相关平台算法feature的落地。
1、负责线下算力资源交付方案设计和落地实施,解决部署过程中遇到的软硬件兼容性和性能问题。 2、负责大模型交付方案设计和落地实施,解决部署过程中遇到的模型兼容性和性能问题。 3、负责Agent方案设计和落地实施,包括但不限于业务架构设计、智能体搭建、提示词工程、RAG和全链路优化等。 4、负责通义大模型和相关产品运维过程中的疑难问题排查、版本升级和性能诊断。
1、负责线下算力资源交付方案设计和落地实施,解决部署过程中遇到的软硬件兼容性和性能问题。 2、负责大模型交付方案设计和落地实施,解决部署过程中遇到的模型兼容性和性能问题。 3、负责Agent方案设计和落地实施,包括但不限于业务架构设计、智能体搭建、提示词工程、RAG和全链路优化等。 4、负责通义大模型和相关产品运维过程中的疑难问题排查、版本升级和性能诊断。
阿里云 AI 中间件团队致力于构建面向 AI 原生时代的新型基础设施,打造支撑万亿级 token 调用的高可用、高性能、可治理的 AI Agent 运行底座。我们主导开源项目 AgentScope(AI Agent 开发框架)、Higress(AI 网关)、Nacos(AI Registry),在继承 Dubbo、Nacos、Higress、Sentinel 等经典中间件能力基础上,为阿里内部 Qwen-APP、百炼、PAI 等核心 AI 产品提供统一AI基础设施。 1. 设计并研发 AI Agent 核心中间件,包括但不限于 Agent 开发框架 AgentScope 、Agent/MCP 注册中心、Prompt/Skills 配置中心、AI Memory 服务等,构建端到端的 Agent 开发、部署与运行体系; 2. 负责 AI Agent 的工程化落地与治理,构建 AI Agent 的效果与高可用治理体系,实现灰度发布、效果评估、安全拦截、故障自愈、成本监控等能力,确保 Agent 在大规模调用下的稳定性、可控性与经济性; 3. 负责下一代 AI 原生应用架构的演进,主导 AI 中间件的整体设计与核心功能研发,探索 AI Agent 与大模型领域的前沿方向,推动 AI 原生应用架构的技术标准制定与社区影响力建设,并促进其在内外部的大规模落地; 4. 推动开源与产品双轮驱动,通过 Higress、AgentScope、Nacos 等项目扩大社区影响力,同时将前沿能力沉淀为 MSE、AI 网关等商业产品,支持内外部客户大规模落地。