logo of aliyun

阿里云阿里云智能-AI开发平台研发专家(模型训练方向)-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1、硕士及以上学历,3年以上IT、互联网、云计算开发相关工作经验,至少1年以上AI领域相关的研发经验;
2、具有机器学习系统的架构设计和开发能力,具有分布式训练(训练框架部署、问题排查、性能优化)、机器学习底层引擎优化(训练和推理性能优化)、机器学习平台(平台调度与管控)等开发经验者优先;
3、要…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与AI开发平台的功能规划、设计与研发,重点围绕模型训练领域,通过云原生的资源调度,提供任务建模、可视化建模、交互式建模相关的平台能力;
2、参与到模型的微调、量化、强化学习相关的平台能力建设,为客户提供高效的Post-Training能力;
3、面向大规模、分布式的模型训练场景,提供可观测能力和上下游故障诊断能力,通过检查点+弹性训练+智能调度的组合,将模型训练故障中断时间压缩到分钟级,保障模型训练过程的性能和稳定性。
包括英文材料
学历+
机器学习+
系统设计+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

1. MLOps平台开发打造一站式大模型开发平台,负责主流开源和闭源模型的训练、评测、蒸馏、压缩、部署全链路工具开发 ● 参与模型各种后训练如微调、蒸馏、强化学习的产品化,以及vLLM/sglang/自研推理引擎的优化,提供有竞争力的推理性能 ● 负责各种MLOps工具链开发,如AI资产管理、实验管理、血缘跟踪、评测对比等,帮助用户串联AI开发全流程,提升模型开发效率 ● 负责多模态数据自动标注和挖掘功能的开发,为智驾和具身智能客户提供新一代的数据工程解决方案 2. 企业级Agent开发平台建设 ● 建设具备全模态能力的agent开发平台,帮助客户构建RAG、chatbot、data agent、design agent、research agent等各种AI agent应用 ● 提供白盒化开发模式,建设全链路的可观测、可调试和监控能力,帮助用户构建同时具备高精度和高性价比的agent应用 ● 针对企业客户对安全隐私的强需求,构建全方位的安全防护能力,包括不限于模型安全护栏、工具沙箱、细粒度权限管控等 ● 与阿里云大数据、智能搜索等业务产品合作,建设阿里云agent工具生态

更新于 2026-01-12北京|杭州
logo of aliyun
社招5年以上技术类-开发

阿里云专有云是面向政企行业客户的全栈云平台,为企业级客户(政府、金融、部委、央企等行业)提供产品和服务。该岗位主要负责专有云智算平台架构规划、系统设计及核心技术研发。核心职责包括: 1、主导智算平台的全栈架构设计。针对不同平台芯片/不同集群规模做整体方案设计,满足千卡/万卡集群高并发、低延迟、弹性可扩展等需求。 2、性能及稳定性优化,提升集群运行效率,不断提升技术竞争力。 3、跟踪前沿技术趋势,推动新技术落地应用。参与行业标准制定。

更新于 2025-05-22成都|北京|深圳
logo of aliyun
社招5年以上云智能集团

1、面向智算异构架构的操作系统协同研发,深度参与面向下一代智能操作系统架构设计与实现,聚焦 CPU/GPU/DPU 等异构硬件平台,重点覆盖任务调度、设备抽象、资源隔离等关键子系统,支撑大规模训练与高并发推理业务的稳定高效运行。 2、AI 软件栈与操作系统深度融合优化,结合主流 AI 软件栈从系统层面构建 System for AI 的端到端优化能力,针对大模型训练/推理中的通信瓶颈、显存压力、资源调度等场景,设计 OS 层面的调度策略、缓存机制与资源管控方案,提升整体吞吐、降低尾延迟、优化单位算力成本。 3、操作系统计算方向技术规划,跟踪学术界与工业界在 AI 系统软件领域的业界进展,结合云上真实业务负载,制定操作系统在调度、隔离、虚拟化、性能、能效等方向的技术演进路线。 4、确保操作系统研发方案交付满足业务预期,稳定性和性能符合基础软件的质量指标要求。 5、积极参与 Linux 内核上游社区、vllm/SGlang/Mooncake 等 AI 场景基础软件社区,包括团队相关技术领域专利/论文贡献,提升上游社区贡献度和团队技术影响力。

更新于 2026-02-10北京|杭州|上海
logo of antgroup
社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。

更新于 2025-10-14北京|上海|杭州