蚂蚁金服蚂蚁集团-AI模型平台技术专家/架构师-杭州/上海
社招全职5年以上技术类-开发地点:上海 | 杭州状态:招聘
任职要求
1. 计算机基础扎实,熟悉 Linux、分布式系统、网络、存储、数据库、并发编程和常用算法,具备复杂系统设计和问题排查能力。 2. 精通 Python/Java/Golang/C++ 至少一门语言,具备良好的工程化实践,能够独立负责平台核心模块设计和落地。 3. 熟悉 LLM、VLM、Diffusion/Flow Matching 等模型的基本结构、训练范式、数据组织方式、前后训练和评测流程,能够理解算法目标并转化为平台能力。 4. 熟悉 SFT、PPO、DPO、GRPO、OPD 等常见后训练算法或训练策略,有实际训练、调参、数据构造或平台化落地经验。 5. 熟悉 PyTorch、SGLang、vLLM 等模型训练与推理生态,具备分布式训练、推理服务部署、吞吐/时延优化、稳定性治理和 GPU 资源效率优化等…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责集团 AI 模型平台核心能力建设,支撑文本或多模态大模型的预训练、后训练、线上推理服务和自动化实验迭代等关键场景。 2. 面向自动化模型研发、推理和 AutoResearch 类场景,建设模型前后训练、推理、实验编排、结果分析、经验沉淀、策略推荐和下一轮实验规划能力,将模型研发和推理部署流程抽象为高效、稳定、可复用的平台能力。 3. 参与后训练平台能力建设,支持 SFT、PPO、DPO、GRPO、OPD 等常见后训练算法和实验流程的工程化、平台化和自动化。 4. 面向重点业务的大模型推理平台建设,打造统一的在线推理服务能力,覆盖文本、多模态等模型类型;建设统一推理网关,支持模型版本管理、灰度发布、流量调度与多租户隔离;持续优化推理吞吐(TPS)和首 token 延迟(TTFT),保障线上服务 SLA。 5. 负责训练和推理基础设施的架构设计与核心技术攻坚,持续提升任务成功率、资源利用率、训练吞吐、推理性能和平台稳定性。 6. 与算法、业务团队深度协作,围绕 AutoResearch、模型前后训练和文本/多模态大规模推理等方向,将前沿模型算法、低延迟推理链路和研发流程沉淀为标准化平台能力,推动能力在多业务、多模型场景中复用。
包括英文材料
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
系统设计+
https://roadmap.sh/system-design
Everything you need to know about designing large scale systems.
https://www.youtube.com/watch?v=F2FmTdLtb_4
This complete system design tutorial covers scalability, reliability, data handling, and high-level architecture with clear explanations, real-world examples, and practical strategies.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
还有更多 •••