logo of antgroup

蚂蚁金服蚂蚁集团-金融语料科学家-北京/杭州/上海

社招全职3年以上技术类-算法地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 计算机、人工智能、金融经济相关专业背景。
2. 熟练掌握机器学习自然语言处理、大语言模型等相关领域的基本理论和算法。
3. 熟练掌握Python编程语言,熟悉主流深度学习框架(如PyTorch),具备大规模数据处理和分布式训练的实际经验。
4. 具备良好的分析和解决问题能力,能够独立思考并解决复杂的技术问题。
5. 具备较强的团队合作能力和沟通能力,能够与工程、产品等团队紧密配合,共同推动项目落地。
6. 热爱人工智能领域,对探索新事物充满热情。

加分项(人才画像偏好):
● Good Data Taste (极佳的数据审美): 对数据质量有近乎偏执的追求,能从杂乱的数据中识别出决定模型能力的“黄金样本”。
● Following the First Principle (第一性原理): 拒绝盲从…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


作为金融语料科学家,你将负责构建和优化驱动金融基座大模型的核心“燃料”。你不仅需要深厚的数据工程能力,更需具备极佳的数据审美,通过系统化、算法化的手段,将海量非结构化金融信息转化为具备严谨逻辑、专业深度与对齐规范的高质量语料,全方位提升模型在金融场景下的逻辑推理、合规对话与复杂决策能力。

核心职责:
1. 金融语料体系全生命周期优化: 负责大模型各阶段(Pre-training, SFT, RLHF)语料的构建与迭代。通过体系化扩展、高精度清洗、去重及去噪,定义并迭代金融领域的“高质量数据”标准。
2. 关键能力专项驱动: 针对性优化模型的金融逻辑推理、多指标计算、财报分析及代码编写能力。设计并实施数据配比实验(Data Mixture),探索知识密度与模型效果的缩放定律(Scaling Laws)。
3. 合成数据与 Agentic 仿真: 研发前沿的合成数据(Synthetic Data)技术,利用 Self-Instruct、Agentic-RL 等手段合成高质量的多轮决策轨迹、长文档推理链(CoT),解决金融场景下的长尾数据稀缺问题。
4. 数据标注与 RLHF 反馈机制:制定涵盖金融专业性、逻辑严密性及合规性的多维度标注方案,构建高质量的偏好数据集,通过人类反馈引导模型符合金融从业者的价值观与专业审美。
5. 金融基准测试 (Benchmark) 构建: 针对性构建涵盖金融资格考试、财报解析、风险识别、投研策略等维度的自动化及人工评测基准。通过 Benchmark 结果精准反查数据短板,实现“以测促练”的闭环迭代。
包括英文材料
机器学习+
NLP+
算法+
Python+
还有更多 •••
相关职位

logo of antgroup
校招蚂蚁星计划 -

作为蚂蚁集团核心安全数据中枢,我们构建金融级全域智能安全防御体系,深耕风险防控、数据资产保护、网络攻防对抗、内容生态治理等关键领域。依托EB级全域安全数据资产与万亿级实时计算能力,为集团数字支付、数字互联生态、数金业务矩阵(网商银行、财富管理、保险科技)、数字科技输出及全球化业务提供全链路安全赋能。 我们依托先进的大数据分析技术和机器学习算法,深度挖掘数据中潜藏的风险与威胁,通过智能预测与主动防御机制,实现安全事件的精准识别与快速响应。持续追踪前沿技术发展,整合大数据、大模型和AI生成技术,成功打造了规模超千亿的多模态安全训练数据集。这些高质量数据集已成为集团大模型安全基础训练语料,广泛应用于大模型安全防御、大模型去毒及身份核验等关键安全领域。加入我们,你将有机会投身于前沿技术的研发与应用,亲身探索全球领先的科技创新成果。我们不仅提供行业领先的薪酬福利体系,更致力于为你营造专业、开放且富有活力的工作氛围。如果你对安全技术与数据应用怀有热忱,渴望在充满创新机遇与专业挑战的环境中实现职业成长,我们诚挚邀请你加入安全大数据技术团队!让我们携手共建智能安全新未来! 1.负责设计先进数据评估方法:创建科学指标体系与测量工具,评估数据质量、贡献度与分布特性,为AI模型优化提供明确方向。研究数据的重要性与影响,探索动态数据价值量化技术(如Shapley值、类边际贡献算法); 2.负责数据驱动决策支持:利用统计学、机器学习与实验设计方法,构建逻辑推演与预测模型,提供数据洞察与业务指导; 3.大规模数据优化:从海量数据中发现异常模式与长尾现象,开发动态数据增强与去噪技术,突破数据复杂性极限; 4.前沿应用研究:探索自监督学习、强化学习等前沿技术领域的数据应用,将数据科学引入学术与工业无人区。

北京|杭州
logo of pingantech
社招计算机网络技术类

1.负责金融客服和催收领域的坐席助手、AI机器人等相关产品的研发,能独立负责自然语言处理应用研究和算法落地工作,包括话术质检、风险预警、对话摘要、关键内容提取、策略推荐、文本生成等 2.跟踪业界研究成果,将前沿NLP、大模型技术应用于相关场景中,根据实际应用效果不断优化模型和算法,研究方向包括但不限于大模型推荐、对话生成、离线强化学习等 3.深度理解业务,与业务方紧密配合达成业务目标

更新于 2025-08-22上海
logo of antgroup
实习研究型实习生

研究领域: 数据挖掘与内容检索 项目简介: 近年来,深度学习和人工智能技术快速发展,大模型自然语言处理在机器翻译、文本生成、情感分析等领域展现出强大能力,蚂蚁也在金融、生活、医疗领域等落地丰富的消费场景。数据作为大模型发展的三大基石之一,语料的规模、质量、多样性对模型质量起到至关重要的作用。尽管许多大模型已经相继开源,但其训练数据几乎全部闭源并视其为重要的商业机密,因此研究和建设高质数据集成为有利于提升模型精度、鲁棒性和泛化能力,是大模型发展的重要方向。 蚂蚁当前训练语料包括文本、图文和视频场景,现有方法主要依赖于人类专家制定的启发式规则来提高语料库质量,仍缺乏一个整体、多维度、易用的语料质量评估体系;此外,是否可以通过数据修复和增强等手段,剔除数据中的低质内容,提升数据多样性和代表性,从而获取更多的优质训练样本?数据质量与模型能力之间的联系如何?又如何设计统一的优化手段来增强数据质量?这些问题都是提升模型性能亟需解决的关键。

上海|杭州
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 在大模型的国际化应用落地过程中,要解决几个核心的问题: 1. 大模型对于小语种的支持:在蚂蚁国际化场景中,既有中英文这样的大规模使用的语言,也有东南亚,欧洲,非洲等各的确相对较小语种的实际需求,这些小语种的语料相对而言获取难度高,也导致了大模型在应用落地过程中会遇到许多困难,探索一条高效可行的道路来扩充大模型对于小语种的支持是在业务和技术上都有着突破意义的工作 2. 大模型对于体验的支持:在模型的使用过程中,探索更好的用户体验需要进行相当的投入来保持对于体验的关注和不断尝试,既包括通过推理模型来提升模型回复能力,也包括通过长思考能力来提升问题解决的思路完备性,也可以借助于大模型的代码生成等推理能力来生成交互式界面,或者通过多模态模型来进行包括视频在内的AIGC等,在应用过程中有很多细节需要结合大模型基座进行优化 3. 模型可信:在金融场景中,模型回复的准确性和安全性至关重要,结合业务场景进行探索模型的grounding,知识注入和幻觉消除等工作

北京|上海|杭州