阿里巴巴业务技术-大模型后训练平台稳定性研发工程师 / 专家-AI infra

社招全职2年以上2025-12-15地点：杭州状态：招聘

扫码手机上打开

任职要求

1.熟悉Megatron/PyTorch等框架的基本的训练流程；
2.掌握GPU/NPU等工作原理、常见操作命令，至少熟练掌握一种编程语言：CUDA或Python中的一种或多种，具备扎实的工程能力和调试能力。
3.熟悉RDM…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 立足AI Agent研发运维视角，贯穿整个技术栈，在稳定、体验、效率和成本这四个方面持续进行优化
2. 基于AI研发领域的MaaS/PaaS/IaaS，进行模型训练与推理的算力保障，并提升资源使用率
3. 统性地提升Agent研发、部署、运行阶段的稳定性，适应Agent QPS、模型推理TPM每年提升1个量级的发展速度
4. 主导解决Agent研发运维过程中各类疑难问题，并推进完善产品与平台的能力
5. 系统性构建故障节点、慢节点检测平台化能力，响应并解决日常大模型任务的故障问题
6. 负责LLM 后训练（SFT、RLHF/RLAIF 等）相关链路稳定性治理、规范建设：理解研发与优化 LLM + RL/HRF 相关训练框架，提升扩展性、稳定性与性能（吞吐、显存占用、收敛效率等）。结合分布式训练技术（如 tensor / pipeline / data parallel），优化多机多卡训练性能和资源利用率。
7. 平台稳定性与工程质量：建设训练平台的观测与运维体系，完善监控、告警、日志与故障排查工具；持续提升平台的稳定性、可调试性和可维护性，产出高质量技术文档与设计方案。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Megatron+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

业务技术-大模型&Agent算法工程师-天猫技术

社招1年以上

1. 负责天猫技术在各域的Agent算法优化，包括ToB和ToP相关产品，如AI商品运营、百补AI导购、品牌商家AI访谈； 2. 主导大模型后训练与领域适配，参与Agent在各业务场景下的微调于多轮对话优化，提升模型在生意诊断、运营策略、导购方案生成、工具决策等任务中的专业性与一致性。 3. 运用SFT、RL等后训练方法，设计合理Reward Function和优化函数，提升大模型在自主规划（Planning）、多步推理、工具调用、数据问答等方面的能力； 4. 负责设计并优化检索增强（RAG）系统，从索引构建、召回排序到知识融合与上下文压缩，全面提升RAG在高准确性需求场景下的效果与稳定性。 5. 深入跟踪LLM/Agent领域前沿进展，推进前沿技术在业务中的验证与落地，重点突破工具集成复杂推理、数据洞察、AI 搜索等方向的应用创新； 6. 负责建立科学评测体系，设计覆盖功能性、合规性、一致性与业务转化的多维评估指标，系统分析模型表现，指导模型与Agent策略的精准优化。

更新于 2026-06-17杭州

业务技术-大模型算法专家-急招

社招3年以上

你可以获得： • 参与前沿AI技术研发，引领行业技术发展 • 与顶尖技术团队协作，攻克技术难题 • 技术成果直接服务海量用户，创造实际价值 • 完整的技术成长路径和职业发展机会 1. AI应用系统构建 • 设计和构建基于大模型的AI应用系统，包括智能客服、代码助手、AI运维等产品 • 运用指令微调（SFT）、强化学习（RLHF/DPO）等技术优化模型在特定场景的表现 • 构建完整的AI应用架构，涵盖数据处理、模型部署、用户交互等全链路 2. Agent智能体开发 • 设计和实现智能Agent系统，具备任务规划、工具调用、多轮交互等核心能力 • 构建多Agent协同框架，实现智能体间的分工协作和知识共享 • 探索Agent在复杂业务场景中的应用模式，如自动化运维、智能分析等 3. 业务场景优化 • 深入理解业务需求，将AI技术与实际场景深度结合，提升用户体验 • 优化AI应用在多轮对话、知识问答、决策支持等场景的效果和效率 • 与产品和工程团队协作，推动AI应用从原型到生产的完整落地

更新于 2026-06-29杭州

业务技术-大模型算法工程师-物流技术

社招1年以上

1. 负责大模型（LLM/MLLM）核心技术研发，包括预训练、垂域SFT、RLHF等，持续追踪和应用领域最新技术进展； 2. 负责大模型性能优化：研发模型加速技术，如量化、剪枝与知识蒸馏；优化数据特征与调度策略；构建高效推理链路、提升运行速度及降低成本； 3. 基于淘天物流领域知识，打造物流垂域agent，支撑toB、toC等多场景应用，包括但不限于退货助手、淘宝万能搜（物流场景）、闪购供应链agent等 4. 持续跟踪、探索大模型/多模态大模型方向的前沿技术，将各方向的SOTA能力集成到模型底座上，提升下游任务的效果，打造团队的技术先进性。

更新于 2026-01-07杭州

业务技术-大模型推理与调度研发工程师-AI infra

社招2年以上

立足 AI Agent 业务的研发运维全链路视角，从稳定、体验、效率和成本这四个方面持续优化模型推理服务，支持好 AI Agent 业务。 ● 异构算力调度与算力池化（核心）：负责 GPU / CPU / 其他异构算力的统一调度与算力池化。设计并实现弹性伸缩、资源混布、潮汐资源盘活、Quota 管理等能力，提升整体资源利用率。 ● 推理调度策略与性能优化：构建并优化推理调度与运行策略（如 KV Cache 管理、并发与队列控制、资源隔离），保障高峰流量下的低延迟与稳定性。 ● 资源编排与多云治理：构建多机房、多地域、多云环境下的统一调度策略，实现跨地域容灾与就近访问。 ● 推理框架与系统优化：协同底层网络 / 存储团队，优化 RDMA、高速网络、缓存 / 存储路径，充分释放大规模集群算力。 ● 平台稳定性与问题治理： ○ 负责推理平台的稳定性建设：治理推理服务常见稳定性问题，建设推理平台的可观测与稳定性体系、压测与容量规划、问题定位与根因分析等能力，并持续降低 MTTR。 ○ 在多异构资源（GPU、CPU、NPU 等）、多云环境、复杂网络场景下，实现快速问题诊断、隔离与恢复。

更新于 2025-12-29杭州