蚂蚁金服蚂蚁集团-金融后训练科学家-北京/杭州/上海

社招全职3年以上技术类-算法2026-01-13地点：北京 | 上海 | 杭州状态：招聘

扫码手机上打开

任职要求

● 计算机科学、人工智能或相关专业背景，具备大模型后训练实战经验。
● 精通 SFT、RLHF（PPO/DPO/GRPO）及对齐算法，具备构建复杂奖励模型（Reward Model）的实战经验。
● 理解Agentic技术栈，有仿真环境构建、工具调用（Tool Use）及多轮决策轨迹合成的相关研发经验。
● 具备扎实的算法工程实现能力，熟悉 PyTorch、Megatron、vLLM 等主流训练推理框架，能够解决从数据合成到模型落地的全链路工程问题，有handson进行修改的能力
● 具备良好的定义、分析和解决问题能力，具备敏锐的数据洞察力。
● 具备较强的团队合作和沟通能力，能够与工程团队、产品团队或其他相关团队紧密配合。

加分项
● Curiosity-driven（极强的好奇心）
● Following the Fir…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责金融大模型后训练（Post-training）阶段的算法研发工作。
2. 设计并优化高质量的金融指令数据微调（SFT）与对齐（Alignment）工作，构建针对金融事实性、合规性及逻辑推理的 Reward 模型系统，激发模型的专业对话、复杂逻辑推理及合规风控能力。
3. 构建基于 Agentic-RL 的金融数据仿真环境及 API 对接体系，通过合成高质量多轮决策轨迹，打造具备极致专业性与安全性的金融行业模型。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

SFT+

RLHF+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-金融模型后训练专家-新金融行业线（北京/杭州）

社招3年以上云智能集团

我们正在寻找一位具有深厚技术背景和丰富经验的大模型（多模态）优化专家，加入我们的团队，共同推动前沿技术的发展。您将负责主导模型的post-training工作，涵盖数据清洗、模型蒸馏与对齐、模型量化、领域能力的加强等方面，以优化模型性能并在金融任务中取得卓越效果。主导模型的post-training工作：包括但不限于数据清洗、模型的蒸馏与对齐、模型的量化、领域能力的加强，以优化模型性能。优化模型在金融任务中的效果：通过各种技术手段，确保模型在金融任务中的准确性和鲁棒性。具备产品化思维，能够在客户现场完成算法架构设计与实施设计和实现高效的模型优化策略：结合最新的研究成果和技术趋势，设计并实现高效的模型优化策略。性能监控和反馈机制：实施和优化模型在实际应用中的部署，包括性能监控和反馈机制。撰写技术文档和研究报告：与团队和利益相关者沟通项目进展与成果，撰写详细的技术文档和研究报告。

更新于 2025-11-29北京|杭州

金融风控算法开发高级工程师

社招3年以上业务安全-二部技

1.参与金融风控大模型方案的设计、研发和优化。利用大模型技术，研发融合海量金融风控场景特征+样本+模型知识的通用基座大模型，提升大模型在金融场景的风险识别效果； 2.参与金融风控大模型预训练、后训练与上线部署，提升大模型落地效率和效果； 3.响应客户需求，协助完成大模型风控建模需求，确保模型在不同金融场景中的高效适配； 4.分析和处理大规模金融数据，提取有效特征以支持大模型训练和评估； 5.与团队成员合作，撰写行业标准和技术文档，分享研究成果和最佳实践，持续提升大模型行业影响力； 6.跟踪金融科技、大模型和机器学习领域的最新进展，持续提升大模型性能和创新能力。

更新于 2025-09-28深圳

MIG-大模型算法研究员

社招算法研究

1. 负责大语言模型、多模态大模型（文本、图像、语音等）的核心算法研发，包括模型 SFT微调、强化学习后训练、推理优化等关键环节，持续提升模型的效果、效率与稳定性。 2. 跟踪国内外大模型领域的前沿技术（如 Transformer 架构改进、多模态融合技术等），并结合业务场景进行技术调研与创新落地。 3. 针对具体业务需求（如智能客服、内容生成、代码辅助等），设计训练数据处理与清洗、大模型微调、强化学习后训练方案，解决实际业务问题。 4. 通用智能体框架设计与开发，智能体虚拟环境搭建，智能体基座模型的SFT后训练和强化学习后训练。 5. 与工程开发、产品设计等团队紧密协作，推动大模型技术从研发到产品化的全流程落地，输出技术文档与方案说明。

更新于 2025-09-24北京|深圳

网商银行-高级算法工程师-上海/杭州-1024热招

社招3年以上技术类-算法

我们致力于打造银行信贷领域的新一代“智能决策大脑”。我们以行业与产业研究为锚点，以数据智能为引擎，深度融合资深信贷专家的经验与海量异构数据洞察，构建面向信贷全生命周期的领域专属决策大模型。 1.主导信贷大模型的后训练体系：通过有监督微调（SFT）、奖励模型（RM）训练、人类反馈强化学习（RLHF）、直接偏好优化（DPO）等领域领先技术，让模型不仅“会回答”，更能“可解释、答得准、判得稳、符合专家直觉”，实现与信贷业务目标的深度对齐。 2.构建垂直领域智能Agent系统的能力：能主导信贷场景下Intelligent Agent的核心框架设计，融合感知、规划、执行与持续学习机制，并通过知识图谱、RAG、NL2SQL等技术打通非结构化知识、结构化数据与自然语言交互，实现从行业洞察、风险画像到决策支持的端到端自动化。 3.打造高质量领域数据飞轮：从零构建面向信贷场景的指令与偏好数据集，设计数据配比、清洗、增强与合成策略，持续提升数据效率与泛化能力——因为你知道，好模型的背后，是更聪明的数据。 4.建立科学严谨的评估体系：构建覆盖准确性、逻辑一致性、风险敏感度、幻觉控制等多维度的自动化评测 pipeline，用数据驱动模型迭代，确保每一个版本都比上一个更可靠、更可用。 5.站在AI+金融的最前沿：紧密跟踪全球大模型的最新进展（如新型偏好学习、多Agent协作等），快速将学术突破转化为业务生产力，解决真实世界中复杂、高 stakes 的信贷决策挑战。同时将领域化的研究转化为高质量的顶会论文，形成持续学术影响力。

更新于 2025-11-13上海|杭州