蚂蚁金服蚂蚁集团-垂类模型语料科学家-北京/杭州/上海【百灵专项】
社招全职3年以上技术类-算法地点:北京 | 上海 | 杭州状态:招聘
任职要求
1. 计算机、人工智能、金融经济相关专业背景。 2. 熟练掌握机器学习、自然语言处理、大语言模型等相关领域的基本理论和算法。 3. 熟练掌握Python编程语言,熟悉主流深度学习框架(如PyTorch),具备大规模数据处理和分布式训练的实际经验。 4. 具备良好的分析和解决问题能力,能够独立思考并解决复杂的技术问题。 5. 具备较强的团队合作能力和沟通能力,能够与工程、产品等团队紧密配合,共同推动项目落地。 6. 热爱人工智能领域,对探索新事物充满热情。 加分项(人才画像偏好): ● Good Data Taste (极佳的数据审美): 对数据质量有近乎偏执的追求,能从杂乱的数据中识别出决定模型能力的“黄金样本”。 ● Following the First Principle (第一性原理): 拒绝盲从…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
作为语料科学家,你将负责构建和优化驱动垂类基座大模型的核心“燃料”。你不仅需要深厚的数据工程能力,更需具备极佳的数据审美,通过系统化、算法化的手段,将海量非结构化金融信息转化为具备严谨逻辑、专业深度与对齐规范的高质量语料,全方位提升模型在金融场景下的逻辑推理、合规对话与复杂决策能力。 核心职责: 1. 语料体系全生命周期优化: 负责大模型各阶段(Pre-training, SFT, RLHF)语料的构建与迭代。通过体系化扩展、高精度清洗、去重及去噪,定义并迭代金融领域的“高质量数据”标准。 2. 关键能力专项驱动: 针对性优化模型的逻辑推理、多指标计算、财报分析及代码编写能力。设计并实施数据配比实验(Data Mixture),探索知识密度与模型效果的缩放定律(Scaling Laws)。 3. 合成数据与 Agentic 仿真: 研发前沿的合成数据(Synthetic Data)技术,利用 Self-Instruct、Agentic-RL 等手段合成高质量的多轮决策轨迹、长文档推理链(CoT),解决金融场景下的长尾数据稀缺问题。 4. 数据标注与 RLHF 反馈机制:制定涵盖金融专业性、逻辑严密性及合规性的多维度标注方案,构建高质量的偏好数据集,通过人类反馈引导模型符合行业从业者的价值观与专业审美。 5. 基准测试 (Benchmark) 构建: 针对性构建涵盖如金融资格考试、财报解析、风险识别、投研策略等维度的自动化及人工评测基准。通过 Benchmark 结果精准反查数据短板,实现“以测促练”的闭环迭代。
包括英文材料
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
还有更多 •••
相关职位
社招3年以上技术类-算法
定义垂类基座的评估方式,研究基座能力的scaling模式,设计高效的模型架构和训练策略,利用大规模语料进行增量预训练或从头训练,解决通用基座在金融等领域的专业知识、产业专业知识、复杂数值推理上的短板,打造行业领先的垂类基座模型。
更新于 2026-01-21北京|上海|杭州
社招A154663
1、负责垂类大语言模型的微调工作; 2、负责特点业务场景(客服、金融财报解读等)大语言模型的应用落地; 3、积极跟进AIGC业内应用趋势,包括但不限于RAG,Agent,MoE等方向。
更新于 2024-12-30深圳
社招2年以上
1、AI客服系统日常运营 -负责大模型驱动的智能客服对话流监控与调优,实时诊断异常对话场景 -基于用户反馈与业务需求,对接供应商优化Prompt工程设计与知识库结构,提升首次解决率 2、数据驱动效能提升 -监测关键指标:对话满意度、意图识别准确率、转人工率,定期生成运营洞察报告 -构建领域专属语料库,协同算法团队完成垂类场景的模型强化训练 3、风险管理与合规 -建立AI应答内容安全审核机制,预防法律/品牌声誉风险 -制定应急预案,确保系统故障时人工服务无缝接管 4、跨部门协作与创新 -联动产品、技术团队推动需求落地,例如知识库动态更新接口开发、多模态(语音/图像)应答功能迭代
更新于 2025-07-16深圳