蚂蚁金服蚂蚁集团-垂类模型后训练科学家-北京/杭州/上海【AGI专项】
社招全职3年以上技术类-算法地点:北京 | 上海 | 杭州状态:招聘
任职要求
● 计算机科学、人工智能或相关专业背景,具备大模型后训练实战经验。 ● 精通 SFT、RLHF(PPO/DPO/GRPO)及对齐算法,具备构建复杂奖励模型(Reward Model)的实战经验。 ● 理解Agentic技术栈,有仿真环境构建、工具调用(Tool Use)及多轮决策轨迹合成的相关研发经验。 ● 具备扎实的算法工程实现能力,熟悉 PyTorch、Megatron、vLLM 等主流训练推理框架,能够解决从数据合成到模型落地的全链路工程问题,有handson进行修改的能力 ● 具备良好的定义、分析和解决问题能力,具备敏锐的数据洞察力。 ● 具备较强的团队合作和沟通能力,能够与工程团队、产品团队或其他相关团队紧密配合。 加分项 ● Curiosity-driven(极强的好奇心) ● Following the Fir…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责垂类大模型后训练(Post-training)阶段的算法研发工作。 2. 设计并优化高质量的指令数据微调(SFT)与对齐(Alignment)工作,构建针对如金融事实性、合规性及逻辑推理的 Reward 模型系统,激发模型的专业对话、复杂逻辑推理及合规风控能力。 3. 构建基于 Agentic-RL 的金融数据仿真环境及 API 对接体系,通过合成高质量多轮决策轨迹,打造具备极致专业性与安全性的垂类行业模型。
包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
SFT+
https://cameronrwolfe.substack.com/p/understanding-and-using-supervised
Understanding how SFT works from the idea to a working implementation...
RLHF+
[英文] What is RLHF?
https://aws.amazon.com/what-is/reinforcement-learning-from-human-feedback/
Reinforcement learning from human feedback (RLHF) is a machine learning (ML) technique that uses human feedback to optimize ML models to self-learn more efficiently.
https://www.ibm.com/think/topics/rlhf
Reinforcement learning from human feedback (RLHF) is a machine learning technique in which a “reward model” is trained with direct human feedback, then used to optimize the performance of an artificial intelligence agent through reinforcement learning.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
还有更多 •••
相关职位
社招3年以上技术类-算法
1. 定义垂类行业大模型的“黄金标准”,构建涵盖合规性、事实性、逻辑推理及安全性的多维度评测体系。 2. 负责搭建自动化评测平台与 Model-based Evaluation(以模评模)流水线,针对如金融研报分析、投资决策、风险控制等复杂场景建设高难度测试集(Hard Case)。 3. 设计针对Agentic AI的动态评估框架,量化智能体在工具调用、多步决策及环境交互中的成功率与鲁棒性,通过精准的评测反馈驱动预训练与后训练的数据/策略迭代,形成“训练-评测-优化”的高效闭环。
更新于 2026-06-11北京|上海|杭州
社招MEG
-参与重点垂类产品的建设,为百度旗下产品提供稳定高质量的服务 -持续的性能优化和架构升级,不断提升团队效率和产品的用户体验 -挖掘各类运营创新玩法,探索增长路径 -沉淀各类提效工具脚手架、检测工具等,提高开发效率
更新于 2025-04-10上海
社招旅游业务AI &
1.工作内容包括但不限于视觉和多模态分类/多标签、目标检测、质量评估、图生视频、OCR等 2.参与研究、构建和优化携程视觉/多模态理解和生成大模型 3.支持垂域大规模训练数据集的构建,推动模型的持续升级和优化迭代 4.负责模型的性能优化和模型服务在业务场景上线落地等
更新于 2025-04-08上海