
智能互联阿里云智能-百炼模型服务运行时技术专家/高级专家-杭州/北京
任职要求
1. 必备技能 (1)扎实的 C++/Python 编程功底,具备模块化设计能力。 (2)大模型推理框架(vLLM/SGLang等)经验,理解模型推理原理。 (3)分布式系统开发经验,熟悉缓存、微服务与容器化技术。 (4)Linux、C…
工作职责
1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。
1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。
1. 负责百炼Agent应用层infra对接阿里云的建设,包括AgentScope运行时以及工具沙箱和阿里云云资源和云服务的对接、Agent部署、和算法适配。 2. 负责百炼Agent在阿里云和企业场景效果的调优。 3. 从阿里云数据源开始,为Agent服务的Data Connector体系的设计和建设。 4. 形成系统的Agent评测体系,沉淀为Reward Model. 5. 负责Agent RL/Tuning相关的算法和工程链路、数据反馈链路的构建。 6. 负责更加通用的Agent调优机制的设计,融入百炼Agent智能体创建流程。 7. 负责阿里云或者企业场景中相关平台算法feature的落地。
1. 负责百炼Agent应用层infra对接阿里云的建设,包括AgentScope运行时以及工具沙箱和阿里云云资源和云服务的对接、Agent部署、和算法适配。 2. 负责百炼Agent在阿里云和企业场景效果的调优。 3. 从阿里云数据源开始,为Agent服务的Data Connector体系的设计和建设。 4. 形成系统的Agent评测体系,沉淀为Reward Model. 5. 负责Agent RL/Tuning相关的算法和工程链路、数据反馈链路的构建。 6. 负责更加通用的Agent调优机制的设计,融入百炼Agent智能体创建流程。 7. 负责阿里云或者企业场景中相关平台算法feature的落地。
岗位描述: 1. 企业级 AI Agent 工程落地指导 作为客户 AI 应用技术服务的第一责任人,深入理解客户业务场景与技术痛点,主导Agent等工程全链路落地服务:从 RAG 构建、知识库向量化、Prompt Engineering 调优,到多 Agent 协作编排、工具链集成与 Function Call调试,确保 AI Agent 在生产环境高效运行。 2. 大模型训练与推理全链路架构设计,负责从数据到模型端到端技术支持 数据侧:设计数据采集、清洗、标注流程,搭建高质量训练数据 Pipeline 训练侧:基于 PAI 平台进行模型微调(SFT/RLHF)、LoRA 适配、分布式训练集群调度 推理侧:优化推理性能(KV Cache、Flash Attention)、推理服务弹性伸缩、Tokens成本治理 3. AI 云原生稳定性保障 从客户架构视角出发,通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系,覆盖 SaaS 层(百炼/通义)、PaaS 层(PAI/DashScope)、IaaS 层(GPU 实例/高速网络)。结合大模型业务的高并发、长文本等流量特征,制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。 4. 卓越架构护航从公共云企业客户的业务视角出发,基于云上卓越架构最佳实践,主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度,推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案,确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。