logo of antgroup

蚂蚁金服蚂蚁集团-AI模型平台技术专家/架构师-杭州/上海

社招全职5年以上技术类-开发地点:上海 | 杭州状态:招聘

任职要求


1. 计算机基础扎实,熟悉 Linux分布式系统、网络、存储、数据库、并发编程和常用算法,具备复杂系统设计和问题排查能力。
2. 精通 Python/Java/Golang/C++ 至少一门语言,具备良好的工程化实践,能够独立负责平台核心模块设计和落地。
3. 熟悉 LLM、VLM、Diffusion/Flow Matching 等模型的基本结构、训练范式、数据组织方式、前后训练和评测流程,能够理解算法目标并转化为平台能力。
4. 熟悉 SFT、PPO、DPO、GRPO、OPD 等常见后训练算法或训练策略,有实际训练、调参、数据构造或平台化落地经验。
5. 熟悉 PyTorch、SGLang、vLLM 等模型训练与推理生态,具备分布式训练、推理服务部署、吞吐/时延优化、稳定性治理和 GPU 资源效率优化等…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责集团 AI 模型平台核心能力建设,支撑文本或多模态大模型的预训练、后训练、线上推理服务和自动化实验迭代等关键场景。
2. 面向自动化模型研发、推理和 AutoResearch 类场景,建设模型前后训练、推理、实验编排、结果分析、经验沉淀、策略推荐和下一轮实验规划能力,将模型研发和推理部署流程抽象为高效、稳定、可复用的平台能力。
3. 参与后训练平台能力建设,支持 SFT、PPO、DPO、GRPO、OPD 等常见后训练算法和实验流程的工程化、平台化和自动化。
4. 面向重点业务的大模型推理平台建设,打造统一的在线推理服务能力,覆盖文本、多模态等模型类型;建设统一推理网关,支持模型版本管理、灰度发布、流量调度与多租户隔离;持续优化推理吞吐(TPS)和首 token 延迟(TTFT),保障线上服务 SLA。
5. 负责训练和推理基础设施的架构设计与核心技术攻坚,持续提升任务成功率、资源利用率、训练吞吐、推理性能和平台稳定性。
6. 与算法、业务团队深度协作,围绕 AutoResearch、模型前后训练和文本/多模态大规模推理等方向,将前沿模型算法、低延迟推理链路和研发流程沉淀为标准化平台能力,推动能力在多业务、多模型场景中复用。
包括英文材料
Linux+
分布式系统+
算法+
系统设计+
Python+
Java+
Go+
还有更多 •••