logo of antgroup

蚂蚁金服蚂蚁集团-垂类模型后训练科学家-北京/杭州/上海【AGI专项】

社招全职3年以上技术类-算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


● 计算机科学、人工智能或相关专业背景,具备大模型后训练实战经验。
● 精通 SFTRLHF(PPO/DPO/GRPO)及对齐算法,具备构建复杂奖励模型(Reward Model)的实战经验。
● 理解Agentic技术栈,有仿真环境构建、工具调用(Tool Use)及多轮决策轨迹合成的相关研发经验。
● 具备扎实的算法工程实现能力,熟悉 PyTorch、Megatron、vLLM 等主流训练推理框架,能够解决从数据合成到模型落地的全链路工程问题,有handson进行修改的能力
● 具备良好的定义、分析和解决问题能力,具备敏锐的数据洞察力。
● 具备较强的团队合作和沟通能力,能够与工程团队、产品团队或其他相关团队紧密配合。

加分项
● Curiosity-driven(极强的好奇心)
● Following the Fir…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责垂类大模型后训练(Post-training)阶段的算法研发工作。
2. 设计并优化高质量的指令数据微调(SFT)与对齐(Alignment)工作,构建针对如金融事实性、合规性及逻辑推理的 Reward 模型系统,激发模型的专业对话、复杂逻辑推理及合规风控能力。
3. 构建基于 Agentic-RL 的金融数据仿真环境及 API 对接体系,通过合成高质量多轮决策轨迹,打造具备极致专业性与安全性的垂类行业模型。
包括英文材料
大模型+
SFT+
RLHF+
算法+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术类-算法

1. 定义垂类行业大模型的“黄金标准”,构建涵盖合规性、事实性、逻辑推理及安全性的多维度评测体系。 2. 负责搭建自动化评测平台与 Model-based Evaluation(以模评模)流水线,针对如金融研报分析、投资决策、风险控制等复杂场景建设高难度测试集(Hard Case)。 3. 设计针对Agentic AI的动态评估框架,量化智能体在工具调用、多步决策及环境交互中的成功率与鲁棒性,通过精准的评测反馈驱动预训练与后训练的数据/策略迭代,形成“训练-评测-优化”的高效闭环。

更新于 2026-06-11北京|上海|杭州
logo of baidu
社招MEG

-参与重点垂类产品的建设,为百度旗下产品提供稳定高质量的服务 -持续的性能优化和架构升级,不断提升团队效率和产品的用户体验 -挖掘各类运营创新玩法,探索增长路径 -沉淀各类提效工具脚手架、检测工具等,提高开发效率

更新于 2025-04-10上海
logo of ctrip
社招旅游业务AI &

1.工作内容包括但不限于视觉和多模态分类/多标签、目标检测、质量评估、图生视频、OCR等 2.参与研究、构建和优化携程视觉/多模态理解和生成大模型 3.支持垂域大规模训练数据集的构建,推动模型的持续升级和优化迭代 4.负责模型的性能优化和模型服务在业务场景上线落地等

更新于 2025-04-08上海
logo of meituan
社招1年以上核心本地商业-基

基于通用大模型,结合创作垂类应用场景,进行领域微调、专项能力增强和偏好学习,提升垂类大模型能力; 构建以智能创作为核心的多模态AI Agent,推动相关的新技术和产品形态落地。

更新于 2025-04-17北京|上海