logo of alibaba

阿里巴巴业务技术-大模型后训练平台稳定性研发工程师 / 专家-AI infra

社招全职2年以上地点:杭州状态:招聘

任职要求


1.熟悉Megatron/PyTorch等框架的基本的训练流程;
2.掌握GPU/NPU等工作原理、常见操作命令,至少熟练掌握一种编程语言:CUDA或Python中的一种或多种,具备扎实的工程能力和调试能力。
3.熟悉RDM…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 立足AI Agent研发运维视角,贯穿整个技术栈,在稳定、体验、效率和成本这四个方面持续进行优化
2. 基于AI研发领域的MaaS/PaaS/IaaS,进行模型训练与推理的算力保障,并提升资源使用率
3. 统性地提升Agent研发、部署、运行阶段的稳定性,适应Agent QPS、模型推理TPM每年提升1个量级的发展速度
4. 主导解决Agent研发运维过程中各类疑难问题,并推进完善产品与平台的能力
5. 系统性构建故障节点、慢节点检测平台化能力,响应并解决日常大模型任务的故障问题
6. 负责LLM 后训练(SFT、RLHF/RLAIF 等)相关链路稳定性治理、规范建设:理解研发与优化 LLM + RL/HRF 相关训练框架,提升扩展性、稳定性与性能(吞吐、显存占用、收敛效率等)。结合分布式训练技术(如 tensor / pipeline / data parallel),优化多机多卡训练性能和资源利用率。
7. 平台稳定性与工程质量:建设训练平台的观测与运维体系,完善监控、告警、日志与故障排查工具;持续提升平台的稳定性、可调试性和可维护性,产出高质量技术文档与设计方案。
包括英文材料
Megatron+
PyTorch+
还有更多 •••
相关职位

logo of alibaba
社招1年以上

团队介绍: 天猫国际是阿里巴巴集团旗下跨境进口零售平台,聚合全球品牌、商家及供应链资源,将海外优质商品带给中国消费者,天猫国际自营业务由平台自行采购、运营、履约,实现从商品引入、价格策略、商品运营、库存管理到配送的全链路可控。 算法场景涵盖供应商入驻、商品运营助手、搜推体验、智能客服等B/C两端整个链路,同时包含大模型的推荐应用、多模态理解、时序预测、运筹优化等,是复合型算法工程师的最佳训练场。 在这里,你将得到大模型在电商场景下丰富的应用挑战,同时自营模式保障算法应用的可控性和数据完整性,方便进行端到端建模与全链路分析,可以快速实验与迭代; 自营业务对托管商品的定价、素材优化、运营策略有直接决策权,算法可以快速验证并调整,无需长周期的商家协调; 业务价值可量化,算法效果可以直接体现在商品销量、毛利率、库存周转率、用户体验留存等核心指标上; 既有丰富的落地场景又有跨境特有的业务挑战,以及进口电商领域有丰富经验积累的师兄帮助,拓展算法工程师的深度和广度。 岗位描述: 1、大模型后训练:参与大语言模型的后训练工作,包括微调、指令对齐、多轮对话,落地并优化通用大模型在自营场景的应用。 2、Agent能力研发:基于大模型构建智能Agent体系,包括工具调用(Tool Use)、任务规划、多Agent协作等核心策略的设计与优化。 3、增强方法研发:实现并优化检索增强(RAG)流程,包括索引构建、召回优化、知识融合、上下文管理等。 4、性能评测与优化:设计评测指标,分析模型在不同任务下的表现,持续迭代模型与Agent的效果。 5、深入跟踪前沿技术,并在业务场景中验证和落地。 6、与产品、工程团队协作,将算法成果部署到线上服务,确保性能和稳定性。

更新于 2025-11-30杭州
logo of antgroup
社招3年以上技术类-开发

1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。

更新于 2025-10-14北京|上海|杭州
logo of aliyun
社招3年以上云智能集团

1. 行业解决方案设计与交付 - 基于阿里云大模型技术(如通义千问),为银行、保险、证券等金融客户量身定制AI大模型解决方案,覆盖AI财富助手、智能客服、智能风控等核心场景。 - 深入理解客户业务痛点,提供从需求分析、技术选型到方案落地的全流程支持,确保大模型技术与金融业务深度融合。 2. 大模型全生命周期技术赋能 - 主导客户侧大模型后训练(Post-training)、领域微调(Domain-specific Fine-tuning)、模型蒸馏(Distillation)及多模态融合优化,提升模型在金融垂直场景的精度及性能。 - 优化大模型训练与推理性能,包括分布式训练加速(如DeepSpeed、Megatron-LM)、显存优化、量化压缩(INT8/FP16)及低延迟推理部署(如vLLM、SGLang)等。 3. 工程化落地与性能调优 - 解决金融场景高并发、高稳定性需求,设计高性能计算架构,优化模型在GPU/TPU集群的训练效率及端到端推理链路。 - 结合金融行业数据隐私与安全要求,设计符合监管的模型部署方案。 4. 客户技术赋能与生态共建 - 面向客户技术团队提供大模型技术培训、实战工作坊及POC验证,推动AI能力在客户内部的规模化应用。 - 沉淀金融行业大模型最佳实践,输出白皮书、案例研究及标准化解决方案,提升阿里云在金融AI领域的市场影响力。

更新于 2025-12-09深圳|广州
logo of alibaba
社招3年以上

1. 负责淘天内控平台的技术系统设计与核心功能开发,运用大模型(LLM)、机器学习等AI技术,系统化防控资金、业务流程、合规等复杂风险,目标是挽回数亿级资金损失。 2. 深度参与下一代智能风控引擎的研发,将AI模型与实时策略深度融合,打造高并发、低延迟的决策系统,保障双十一等大促场景下的极致稳定性与精准性。 3. 针对内控风控这一高专业性场景,探索并落地大模型的领域后训练(Post-training)、指令微调(SFT)、检索增强生成(RAG)等前沿方案,持续提升模型在风险识别、归因分析、合规判断等任务上的准确率与可解释性。 4. 主导企业级AI应用的开发与落地,通过构建AI Agent、智能工作流(Workflow)和知识库引擎,重塑风险的主动发现、智能分析与自动化治理方案,打造行业领先的AI内控产品。 5. 持续跟踪大模型(LLM)、多模态、Agent框架、模型对齐与安全等前沿AI技术,并推动其在内控领域的创新应用与业务价值转化。

更新于 2025-12-02杭州