logo of antgroup

蚂蚁金服蚂蚁集团-金融后训练科学家-北京/杭州/上海

社招全职3年以上技术类-算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


● 计算机科学、人工智能或相关专业背景,具备大模型后训练实战经验。
● 精通 SFTRLHF(PPO/DPO/GRPO)及对齐算法,具备构建复杂奖励模型(Reward Model)的实战经验。
● 理解Agentic技术栈,有仿真环境构建、工具调用(Tool Use)及多轮决策轨迹合成的相关研发经验。
● 具备扎实的算法工程实现能力,熟悉 PyTorch、Megatron、vLLM 等主流训练推理框架,能够解决从数据合成到模型落地的全链路工程问题,有handson进行修改的能力
● 具备良好的定义、分析和解决问题能力,具备敏锐的数据洞察力。
● 具备较强的团队合作和沟通能力,能够与工程团队、产品团队或其他相关团队紧密配合。

加分项
● Curiosity-driven(极强的好奇心)
● Following the Fir…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责金融大模型后训练(Post-training)阶段的算法研发工作。
2. 设计并优化高质量的金融指令数据微调(SFT)与对齐(Alignment)工作,构建针对金融事实性、合规性及逻辑推理的 Reward 模型系统,激发模型的专业对话、复杂逻辑推理及合规风控能力。
3. 构建基于 Agentic-RL 的金融数据仿真环境及 API 对接体系,通过合成高质量多轮决策轨迹,打造具备极致专业性与安全性的金融行业模型。
包括英文材料
大模型+
SFT+
RLHF+
算法+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

我们正在寻找一位具有深厚技术背景和丰富经验的大模型(多模态)优化专家,加入我们的团队,共同推动前沿技术的发展。您将负责主导模型的post-training工作,涵盖数据清洗、模型蒸馏与对齐、模型量化、领域能力的加强等方面,以优化模型性能并在金融任务中取得卓越效果。 主导模型的post-training工作:包括但不限于数据清洗、模型的蒸馏与对齐、模型的量化、领域能力的加强,以优化模型性能。 优化模型在金融任务中的效果:通过各种技术手段,确保模型在金融任务中的准确性和鲁棒性。 具备产品化思维,能够在客户现场完成算法架构设计与实施 设计和实现高效的模型优化策略:结合最新的研究成果和技术趋势,设计并实现高效的模型优化策略。 性能监控和反馈机制:实施和优化模型在实际应用中的部署,包括性能监控和反馈机制。 撰写技术文档和研究报告:与团队和利益相关者沟通项目进展与成果,撰写详细的技术文档和研究报告。

更新于 2025-11-29北京|杭州
logo of tencent
社招3年以上业务安全-二部技

1.参与金融风控大模型方案的设计、研发和优化。利用大模型技术,研发融合海量金融风控场景特征+样本+模型知识的通用基座大模型,提升大模型在金融场景的风险识别效果; 2.参与金融风控大模型预训练、后训练与上线部署,提升大模型落地效率和效果; 3.响应客户需求,协助完成大模型风控建模需求,确保模型在不同金融场景中的高效适配; 4.分析和处理大规模金融数据,提取有效特征以支持大模型训练和评估; 5.与团队成员合作,撰写行业标准和技术文档,分享研究成果和最佳实践,持续提升大模型行业影响力; 6.跟踪金融科技、大模型和机器学习领域的最新进展,持续提升大模型性能和创新能力。

更新于 2025-09-28深圳
logo of sensetime
社招算法研究

1. 负责大语言模型、多模态大模型(文本、图像、语音等)的核心算法研发,包括模型 SFT微调、强化学习后训练、推理优化等关键环节,持续提升模型的效果、效率与稳定性。 2. 跟踪国内外大模型领域的前沿技术(如 Transformer 架构改进、多模态融合技术等),并结合业务场景进行技术调研与创新落地。 3. 针对具体业务需求(如智能客服、内容生成、代码辅助等),设计训练数据处理与清洗、大模型微调、强化学习后训练方案,解决实际业务问题。 4. 通用智能体框架设计与开发,智能体虚拟环境搭建,智能体基座模型的SFT后训练和强化学习后训练。 5. 与工程开发、产品设计等团队紧密协作,推动大模型技术从研发到产品化的全流程落地,输出技术文档与方案说明。

更新于 2025-09-24北京|深圳
logo of antgroup
社招3年以上技术类-算法

我们致力于打造银行信贷领域的新一代“智能决策大脑”。我们以行业与产业研究为锚点,以数据智能为引擎,深度融合资深信贷专家的经验与海量异构数据洞察,构建面向信贷全生命周期的领域专属决策大模型。 1.主导信贷大模型的后训练体系:通过有监督微调(SFT)、奖励模型(RM)训练、人类反馈强化学习(RLHF)、直接偏好优化(DPO)等领域领先技术,让模型不仅“会回答”,更能“可解释、答得准、判得稳、符合专家直觉”,实现与信贷业务目标的深度对齐。 2.构建垂直领域智能Agent系统的能力:能主导信贷场景下Intelligent Agent的核心框架设计,融合感知、规划、执行与持续学习机制,并通过知识图谱、RAG、NL2SQL等技术打通非结构化知识、结构化数据与自然语言交互,实现从行业洞察、风险画像到决策支持的端到端自动化。 3.打造高质量领域数据飞轮:从零构建面向信贷场景的指令与偏好数据集,设计数据配比、清洗、增强与合成策略,持续提升数据效率与泛化能力——因为你知道,好模型的背后,是更聪明的数据。 4.建立科学严谨的评估体系:构建覆盖准确性、逻辑一致性、风险敏感度、幻觉控制等多维度的自动化评测 pipeline,用数据驱动模型迭代,确保每一个版本都比上一个更可靠、更可用。 5.站在AI+金融的最前沿:紧密跟踪全球大模型的最新进展(如新型偏好学习、多Agent协作等),快速将学术突破转化为业务生产力,解决真实世界中复杂、高 stakes 的信贷决策挑战。同时将领域化的研究转化为高质量的顶会论文,形成持续学术影响力。

更新于 2025-11-13上海|杭州