阿里巴巴业务技术-大模型后训练平台稳定性研发工程师 / 专家-AI infra
任职要求
1.熟悉Megatron/PyTorch等框架的基本的训练流程; 2.掌握GPU/NPU等工作原理、常见操作命令,至少熟练掌握一种编程语言:CUDA或Python中的一种或多种,具备扎实的工程能力和调试能力。 3.熟悉RDM…
工作职责
1. 立足AI Agent研发运维视角,贯穿整个技术栈,在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS,进行模型训练与推理的算力保障,并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性,适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题,并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力,响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练(SFT、RLHF/RLAIF 等)相关链路稳定性治理、规范建设:理解研发与优化 LLM + RL/HRF 相关训练框架,提升扩展性、稳定性与性能(吞吐、显存占用、收敛效率等)。结合分布式训练技术(如 tensor / pipeline / data parallel),优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量:建设训练平台的观测与运维体系,完善监控、告警、日志与故障排查工具;持续提升平台的稳定性、可调试性和可维护性,产出高质量技术文档与设计方案。
1. 行业解决方案设计与交付 - 基于阿里云大模型技术(如通义千问),为银行、保险、证券等金融客户量身定制AI大模型解决方案,覆盖AI财富助手、智能客服、智能风控等核心场景。 - 深入理解客户业务痛点,提供从需求分析、技术选型到方案落地的全流程支持,确保大模型技术与金融业务深度融合。 2. 大模型全生命周期技术赋能 - 主导客户侧大模型后训练(Post-training)、领域微调(Domain-specific Fine-tuning)、模型蒸馏(Distillation)及多模态融合优化,提升模型在金融垂直场景的精度及性能。 - 优化大模型训练与推理性能,包括分布式训练加速(如DeepSpeed、Megatron-LM)、显存优化、量化压缩(INT8/FP16)及低延迟推理部署(如vLLM、SGLang)等。 3. 工程化落地与性能调优 - 解决金融场景高并发、高稳定性需求,设计高性能计算架构,优化模型在GPU/TPU集群的训练效率及端到端推理链路。 - 结合金融行业数据隐私与安全要求,设计符合监管的模型部署方案。 4. 客户技术赋能与生态共建 - 面向客户技术团队提供大模型技术培训、实战工作坊及POC验证,推动AI能力在客户内部的规模化应用。 - 沉淀金融行业大模型最佳实践,输出白皮书、案例研究及标准化解决方案,提升阿里云在金融AI领域的市场影响力。
1. 支撑蚂蚁集团在各个业务领域的MLOps&LMOps算法研发工作,覆盖机器学习系统多个子方向领域的工作,包括:数据配比&全链路血缘建设、数据实验&分析、深度学习/大模型预训练/后训练/推理等,建设支持AI全链路的研发平台与AI垂类应用开发平台,实现算法研发效率、和资源利用率的最大化,灵活可扩展的支持不同领域的个性化应用开发需求,为蚂蚁大模型研发链路及应用研发探索新的研发模式; 2. 对平台进行全局性和前瞻性的架构设计和核心技术细节实现,帮助团队攻克各种技术难关,保障和提升平台稳定性。
1. 大模型垂域应用系统的整体架构及业务链路设计,包括但不限于系统设计、算法工程、AIGC应用搭建等; 2. 应用大模型、向量数据库、知识检索、MCP、A2A、 Function calling 等技术,构筑包含 Prompt智能填充、复杂任务规划、大小模型异构调度、数据沉淀和管理的 Agent 平台,用于在游戏开发过程中的能力提效 和游戏智能NPC的开发; 3. 和模型算法同学一起,通过算法和架构结合,改进算法的效果,保证能力的稳定性,降低技术成本; 4. 跟踪最新的智能体技术研究和进展,并在游戏 AI 领域进行创新性探索。