阿里云阿里云智能-AI开发平台研发专家（模型训练方向）-北京/杭州

社招全职5年以上云智能集团2025-12-14地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1、硕士及以上学历，3年以上IT、互联网、云计算开发相关工作经验，至少1年以上AI领域相关的研发经验；
2、具有机器学习系统的架构设计和开发能力，具有分布式训练（训练框架部署、问题排查、性能优化）、机器学习底层引擎优化（训练和推理性能优化）、机器学习平台（平台调度与管控）等开发经验者优先；
3、要…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、参与AI开发平台的功能规划、设计与研发，重点围绕模型训练领域，通过云原生的资源调度，提供任务建模、可视化建模、交互式建模相关的平台能力；
2、参与到模型的微调、量化、强化学习相关的平台能力建设，为客户提供高效的Post-Training能力；
3、面向大规模、分布式的模型训练场景，提供可观测能力和上下游故障诊断能力，通过检查点+弹性训练+智能调度的组合，将模型训练故障中断时间压缩到分钟级，保障模型训练过程的性能和稳定性。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

机器学习+

系统设计+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-机器学习PAI平台研发专家-MLOps/Agent方向（北京、杭州）

社招3年以上云智能集团

1. MLOps平台开发打造一站式大模型开发平台，负责主流开源和闭源模型的训练、评测、蒸馏、压缩、部署全链路工具开发 ● 参与模型各种后训练如微调、蒸馏、强化学习的产品化，以及vLLM/sglang/自研推理引擎的优化，提供有竞争力的推理性能 ● 负责各种MLOps工具链开发，如AI资产管理、实验管理、血缘跟踪、评测对比等，帮助用户串联AI开发全流程，提升模型开发效率 ● 负责多模态数据自动标注和挖掘功能的开发，为智驾和具身智能客户提供新一代的数据工程解决方案 2. 企业级Agent开发平台建设 ● 建设具备全模态能力的agent开发平台，帮助客户构建RAG、chatbot、data agent、design agent、research agent等各种AI agent应用 ● 提供白盒化开发模式，建设全链路的可观测、可调试和监控能力，帮助用户构建同时具备高精度和高性价比的agent应用 ● 针对企业客户对安全隐私的强需求，构建全方位的安全防护能力，包括不限于模型安全护栏、工具沙箱、细粒度权限管控等 ● 与阿里云大数据、智能搜索等业务产品合作，建设阿里云agent工具生态

更新于 2026-01-12北京|杭州

阿里云智能-资深技术专家（专有云智算方向）-北京/杭州/上海/深圳/成都

社招5年以上技术类-开发

阿里云专有云是面向政企行业客户的全栈云平台，为企业级客户（政府、金融、部委、央企等行业）提供产品和服务。该岗位主要负责专有云智算平台架构规划、系统设计及核心技术研发。核心职责包括： 1、主导智算平台的全栈架构设计。针对不同平台芯片/不同集群规模做整体方案设计，满足千卡/万卡集群高并发、低延迟、弹性可扩展等需求。 2、性能及稳定性优化，提升集群运行效率，不断提升技术竞争力。 3、跟踪前沿技术趋势，推动新技术落地应用。参与行业标准制定。

更新于 2025-05-22成都|北京|深圳

阿里云智能-操作系统 AI 软硬协同优化开发专家 (内核计算方向)-北京/杭州/上海

社招5年以上云智能集团

1、面向智算异构架构的操作系统协同研发，深度参与面向下一代智能操作系统架构设计与实现，聚焦 CPU/GPU/DPU 等异构硬件平台，重点覆盖任务调度、设备抽象、资源隔离等关键子系统，支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化，结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力，针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景，设计 OS 层面的调度策略、缓存机制与资源管控方案，提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划，跟踪学术界与工业界在 AI 系统软件领域的业界进展，结合云上真实业务负载，制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期，稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区，包括团队相关技术领域专利/论文贡献，提升上游社区贡献度和团队技术影响力。

更新于 2026-02-10北京|杭州|上海

蚂蚁集团-AI研发平台技术专家-杭州/上海/北京【数据平台】

社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作，覆盖机器学习系统多个子方向领域的工作，包括：数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等，建设支持AI全链路的研发平台与AI垂类应用开发平台，实现算法研发效率、和资源利用率的最大化，灵活可扩展的支持不同领域的个性化应用开发需求，为蚂蚁大模型研发链路及应用研发探索新的研发模式； 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现，帮助团队攻克各种技术难关，保障和提升平台稳定性。

更新于 2025-10-14北京|上海|杭州