logo of aliyun

阿里云阿里云智能-模型服务平台研发专家-机器学习PAI

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 计算机相关专业背景,具备五年以上 GolangPythonC++ 中至少一门语言的开发经验;
2. 拥有五年以上的分布式系统开发经验,具备复杂系统的软件设计与调试能力;
3. 精通后端服务开发,熟悉 OpenAPI微服务架构、Kubernetes、容器技术、Prometheus 等相关技术栈;
4. 熟悉 vLLMSGLang 等开源推理引擎,了解大语言模型(LLM)场景下的请求调度、KV Cache 存储、P-D 分离等核心架构;
5. 具备丰富的软件工程经验,对软件开发流程、质量保障、风险控制、部署交付及运维诊断等环节有清晰的认知与实践经验;
6. 面对复杂问题时,能够进行系统性分析,准确抽象业务需求并合理拆解任务;
7. 具备良好的学习能力和自我驱动力,持续关注云原生与人工智能领域的技术发展。

工作职责


1. 参与模型服务平台的整体架构设计与核心开发工作,主导大模型多机分布式推理系统的研发与优化,以高效支撑日益增长的业务需求和产品迭代;
2. 负责解决大模型推理过程中高并发场景下的关键技术问题,包括但不限于负载均衡、请求调度、多机组网通信、系统容错机制、KV Cache 高效管理等;
3. 推动模型服务平台的产品化建设,主导或参与大模型分发系统、LLM推理引擎、请求调度系统等核心模块的设计与开发;
4. 负责大规模GPU集群的稳定性与性能优化,构建完善的可观测性系统,提升平台安全性与可靠性,推进资源调度系统的智能化升级;
5. 根据用户反馈快速定位并解决线上问题,深入分析业务需求,将高频使用场景沉淀为平台通用能力,持续提升平台的易用性与功能性。
包括英文材料
Go+
Python+
C+++
分布式系统+
OpenAPI+
微服务+
Kubernetes+
Prometheus+
大模型+
vLLM+
推理引擎+
SGLang+
缓存+
相关职位

logo of aliyun
社招3年以上云智能集团

1. MLOps平台开发打造一站式大模型开发平台,负责主流开源和闭源模型的训练、评测、蒸馏、压缩、部署全链路工具开发 ● 参与模型各种后训练如微调、蒸馏、强化学习的产品化,以及vLLM/sglang/自研推理引擎的优化,提供有竞争力的推理性能 ● 负责各种MLOps工具链开发,如AI资产管理、实验管理、血缘跟踪、评测对比等,帮助用户串联AI开发全流程,提升模型开发效率 ● 负责多模态数据自动标注和挖掘功能的开发,为智驾和具身智能客户提供新一代的数据工程解决方案 2. 企业级Agent开发平台建设 ● 建设具备全模态能力的agent开发平台,帮助客户构建RAG、chatbot、data agent、design agent、research agent等各种AI agent应用 ● 提供白盒化开发模式,建设全链路的可观测、可调试和监控能力,帮助用户构建同时具备高精度和高性价比的agent应用 ● 针对企业客户对安全隐私的强需求,构建全方位的安全防护能力,包括不限于模型安全护栏、工具沙箱、细粒度权限管控等 ● 与阿里云大数据、智能搜索等业务产品合作,建设阿里云agent工具生态

更新于 2025-09-10
logo of aliyun
社招3年以上云智能集团

1. 研发需求洞察与设计:负责阿里云人工智能平台PAI的需求讨论、架构设计、软件开发、功能测试及部署上线,确保项目从初始阶段到交付的全流程高质量执行; 2. 系统优化:从功能、性能、可用性、易用性等多个维度,结合产品设计、产品设计和解决方案架构及客户反馈,进行系统各模块的持续分析和优化,降低用户使用门槛,提升用户满意度和忠诚度; 3. 技术支持与维护:负责线上环境的运行监控与问题定位,与SRE和售后团队紧密协作,及时为客户提供技术支持,保障平台的稳定运行; 4. 前沿技术开发:紧贴大模型及AIGC等业界趋势,提炼并反馈有价值的用户需求,持续增强和改进平台的功能,保持技术的先进性和市场竞争力。

更新于 2025-07-07
logo of aliyun
社招5年以上技术类-开发

1.参与模型服务平台云原生管控系统,资源管理调度系统,服务引擎,以及平台产品化相关的开发 2.参与模型服务serverless化的建设,服务启动调度性能优化,计量计费等相关的开发 3.大规模GPU集群稳定性建设,可观测建设,安全性建设,资源调度超卖等方面的建设 4.根据用户反馈快速定位线上问题,将用户需求沉淀为平台功能,增强平台能力

更新于 2025-06-16
logo of dewu
社招3年以上技术类

1. 负责一站式机器学习平台的设计研发与迭代改进,包含前端,后台,平台任务流程设计和研发,为算法同学提供一站式模型训练和上线服务的能力; 3. 协同训练框架、推理框架等团队确保一站式服务平台的稳定性和易用性; 4. 服务算法模型团队,提供样本管理、模型开发调试、模型训练任务管理和版本管理、一键式上线服务部署等功能的平台化能力; 5. 对接容器算力团队,屏蔽算法团队对底层算力资源的感知,提供模型训练和模型服务的资源和任务调度能力; 6. 负责模型平台的任务、资源、成本等数据收集和自动化分析、展示功能开发,推动公司机器学习成本优化工作。

更新于 2023-12-26