logo of aligenie

智能互联阿里云智能-百炼模型服务运行时技术专家/高级专家-杭州/北京

社招全职4年以上地点:北京 | 杭州状态:招聘

任职要求


1. 必备技能
(1)扎实的 C++/Python 编程功底,具备模块化设计能力。
(2)大模型推理框架(vLLM/SGLang等)经验,理解模型推理原理。
(3)分布式系统开发经验,熟悉缓存、微服务与容器化技术。
(4)Linux、C…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 核心系统研发
(1)设计与优化大模型推理服务框架与分布式缓存系统。
(2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。
(3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。
2. 性能与稳定性优化
(1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。
(2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。
(3)支持高性能通信协议、容错与负载均衡机制。
(4)提升系统可观测性,完善监控、告警与故障恢复体系。
3. 引擎与应用集成
(1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。
(2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。
包括英文材料
C+++
Python+
大模型+
vLLM+
SGLang+
分布式系统+
还有更多 •••
相关职位

logo of aliyun
社招4年以上云智能集团

1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。

更新于 2026-01-07北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 负责百炼Agent应用层infra对接阿里云的建设,包括AgentScope运行时以及工具沙箱和阿里云云资源和云服务的对接、Agent部署、和算法适配。 2. 负责百炼Agent在阿里云和企业场景效果的调优。 3. 从阿里云数据源开始,为Agent服务的Data Connector体系的设计和建设。 4. 形成系统的Agent评测体系,沉淀为Reward Model. 5. 负责Agent RL/Tuning相关的算法和工程链路、数据反馈链路的构建。 6. 负责更加通用的Agent调优机制的设计,融入百炼Agent智能体创建流程。 7. 负责阿里云或者企业场景中相关平台算法feature的落地。

更新于 2025-11-12北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1. 负责百炼Agent应用层infra对接阿里云的建设,包括AgentScope运行时以及工具沙箱和阿里云云资源和云服务的对接、Agent部署、和算法适配。 2. 负责百炼Agent在阿里云和企业场景效果的调优。 3. 从阿里云数据源开始,为Agent服务的Data Connector体系的设计和建设。 4. 形成系统的Agent评测体系,沉淀为Reward Model. 5. 负责Agent RL/Tuning相关的算法和工程链路、数据反馈链路的构建。 6. 负责更加通用的Agent调优机制的设计,融入百炼Agent智能体创建流程。 7. 负责阿里云或者企业场景中相关平台算法feature的落地。

更新于 2026-04-08北京|杭州|上海
logo of aliyun
社招2年以上云智能集团

岗位描述: 1. 企业级 AI Agent 工程落地指导 作为客户 AI 应用技术服务的第一责任人,深入理解客户业务场景与技术痛点,主导Agent等工程全链路落地服务:从 RAG 构建、知识库向量化、Prompt Engineering 调优,到多 Agent 协作编排、工具链集成与 Function Call调试,确保 AI Agent 在生产环境高效运行。 2. 大模型训练与推理全链路架构设计,负责从数据到模型端到端技术支持 数据侧:设计数据采集、清洗、标注流程,搭建高质量训练数据 Pipeline 训练侧:基于 PAI 平台进行模型微调(SFT/RLHF)、LoRA 适配、分布式训练集群调度 推理侧:优化推理性能(KV Cache、Flash Attention)、推理服务弹性伸缩、Tokens成本治理 3. AI 云原生稳定性保障 从客户架构视角出发,通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系,覆盖 SaaS 层(百炼/通义)、PaaS 层(PAI/DashScope)、IaaS 层(GPU 实例/高速网络)。结合大模型业务的高并发、长文本等流量特征,制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。 4. 卓越架构护航从公共云企业客户的业务视角出发,基于云上卓越架构最佳实践,主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度,推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案,确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。

更新于 2026-04-03北京