阿里云阿里云智能-机器学习平台研发专家-杭州/北京

社招全职3年以上云智能集团2025-07-07地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机及相关专业背景，扎实的计算机基础知识，3年以上Golang、Java、Python或C++一种或多种语言的开发经验；
2. 具有3年以上分布式系统或后端服务系统相关工作经验，具备复杂系统软件的设计和调试能力；
3. 熟悉容器（如Docker/Containerd）、Kubernetes、微服务架构、数据库、Prometheus和ElasticSearch等至少一项相关技术。熟悉异构设备，包括但是不限于gpu；
4.…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 研发需求洞察与设计：负责阿里云人工智能平台PAI的需求讨论、架构设计、软件开发、功能测试及部署上线，确保项目从初始阶段到交付的全流程高质量执行；
2. 系统优化：从功能、性能、可用性、易用性等多个维度，结合产品设计、产品设计和解决方案架构及客户反馈，进行系统各模块的持续分析和优化，降低用户使用门槛，提升用户满意度和忠诚度；
3. 技术支持与维护：负责线上环境的运行监控与问题定位，与SRE和售后团队紧密协作，及时为客户提供技术支持，保障平台的稳定运行；
4. 前沿技术开发：紧贴大模型及AIGC等业界趋势，提炼并反馈有价值的用户需求，持续增强和改进平台的功能，保持技术的先进性和市场竞争力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Go+

Python+

C+++

分布式系统+

OpenAPI+

微服务+

Kubernetes+

Prometheus+

Java+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-AI开发平台研发专家（模型训练方向）-北京/杭州

社招5年以上云智能集团

1、参与AI开发平台的功能规划、设计与研发，重点围绕模型训练领域，通过云原生的资源调度，提供任务建模、可视化建模、交互式建模相关的平台能力； 2、参与到模型的微调、量化、强化学习相关的平台能力建设，为客户提供高效的Post-Training能力； 3、面向大规模、分布式的模型训练场景，提供可观测能力和上下游故障诊断能力，通过检查点+弹性训练+智能调度的组合，将模型训练故障中断时间压缩到分钟级，保障模型训练过程的性能和稳定性。

更新于 2025-12-14北京|杭州

阿里云智能-机器学习平台研发专家-模型服务

社招5年以上技术类-开发

1.参与模型服务平台云原生管控系统，资源管理调度系统，服务引擎，以及平台产品化相关的开发 2.参与模型服务serverless化的建设，服务启动调度性能优化，计量计费等相关的开发 3.大规模GPU集群稳定性建设，可观测建设，安全性建设，资源调度超卖等方面的建设 4.根据用户反馈快速定位线上问题，将用户需求沉淀为平台功能，增强平台能力

更新于 2025-06-16北京|杭州

阿里云智能-机器学习PAI平台研发专家-MLOps/Agent方向（北京、杭州）

社招3年以上云智能集团

1. MLOps平台开发打造一站式大模型开发平台，负责主流开源和闭源模型的训练、评测、蒸馏、压缩、部署全链路工具开发 ● 参与模型各种后训练如微调、蒸馏、强化学习的产品化，以及vLLM/sglang/自研推理引擎的优化，提供有竞争力的推理性能 ● 负责各种MLOps工具链开发，如AI资产管理、实验管理、血缘跟踪、评测对比等，帮助用户串联AI开发全流程，提升模型开发效率 ● 负责多模态数据自动标注和挖掘功能的开发，为智驾和具身智能客户提供新一代的数据工程解决方案 2. 企业级Agent开发平台建设 ● 建设具备全模态能力的agent开发平台，帮助客户构建RAG、chatbot、data agent、design agent、research agent等各种AI agent应用 ● 提供白盒化开发模式，建设全链路的可观测、可调试和监控能力，帮助用户构建同时具备高精度和高性价比的agent应用 ● 针对企业客户对安全隐私的强需求，构建全方位的安全防护能力，包括不限于模型安全护栏、工具沙箱、细粒度权限管控等 ● 与阿里云大数据、智能搜索等业务产品合作，建设阿里云agent工具生态

更新于 2026-01-12北京|杭州

蚂蚁集团-大模型算法工程师/专家-杭州/北京【平台工程】

社招技术类-算法

1、研发面向云计算底座海量数据的大模型，包括但不限于代码大模型、全模态、大规模图学习等领域相关的大模型的应用算法研发； 2、参与大模型应用研发全流程的工作，包括但不限于模型算法设计、代码开发、训练、部署优化、调试、评测；技术创新如专利、论文的撰写；外部技术影响力交流等； 3、推动大模型在DevOps提效、内外部智能体业务应用、爆款AI原生应用、安全和技术风险防控等场景的业务落地；

更新于 2025-07-14北京|杭州