蚂蚁金服蚂蚁集团-垂类模型语料科学家-北京/杭州/上海【百灵专项】
任职要求
1. 计算机、人工智能、金融经济相关专业背景。 2. 熟练掌握机器学习、自然语言处理、大语言模型等相关领域的基本理论和算法。 3. 熟练掌握Python编程语言,熟悉主流深度学习框架(如PyTorch),具备大规模数据处理和分布式训练的实际经验。 4. 具备良好的分析和解决问题能力,能够独立思考并解决复杂的技术问题。 5. 具备较强的团队合作能力和沟通能力,能够与工程、产品等团队紧密配合,共同推动项目落地。 6. 热爱人工智能领域,对探索新事物充满热情。 加分项(人才画像偏好): ● Good Data Taste (极佳的数据审美): 对数据质量有近乎偏执的追求,能从杂乱的数据中识别出决定模型能力的“黄金样本”。 ● Following the First Principle (第一性原理): 拒绝盲从…
工作职责
作为语料科学家,你将负责构建和优化驱动垂类基座大模型的核心“燃料”。你不仅需要深厚的数据工程能力,更需具备极佳的数据审美,通过系统化、算法化的手段,将海量非结构化金融信息转化为具备严谨逻辑、专业深度与对齐规范的高质量语料,全方位提升模型在金融场景下的逻辑推理、合规对话与复杂决策能力。 核心职责: 1. 语料体系全生命周期优化: 负责大模型各阶段(Pre-training, SFT, RLHF)语料的构建与迭代。通过体系化扩展、高精度清洗、去重及去噪,定义并迭代金融领域的“高质量数据”标准。 2. 关键能力专项驱动: 针对性优化模型的逻辑推理、多指标计算、财报分析及代码编写能力。设计并实施数据配比实验(Data Mixture),探索知识密度与模型效果的缩放定律(Scaling Laws)。 3. 合成数据与 Agentic 仿真: 研发前沿的合成数据(Synthetic Data)技术,利用 Self-Instruct、Agentic-RL 等手段合成高质量的多轮决策轨迹、长文档推理链(CoT),解决金融场景下的长尾数据稀缺问题。 4. 数据标注与 RLHF 反馈机制:制定涵盖金融专业性、逻辑严密性及合规性的多维度标注方案,构建高质量的偏好数据集,通过人类反馈引导模型符合行业从业者的价值观与专业审美。 5. 基准测试 (Benchmark) 构建: 针对性构建涵盖如金融资格考试、财报解析、风险识别、投研策略等维度的自动化及人工评测基准。通过 Benchmark 结果精准反查数据短板,实现“以测促练”的闭环迭代。
定义垂类基座的评估方式,研究基座能力的scaling模式,设计高效的模型架构和训练策略,利用大规模语料进行增量预训练或从头训练,解决通用基座在金融等领域的专业知识、产业专业知识、复杂数值推理上的短板,打造行业领先的垂类基座模型。
1、负责垂类大语言模型的微调工作; 2、负责特点业务场景(客服、金融财报解读等)大语言模型的应用落地; 3、积极跟进AIGC业内应用趋势,包括但不限于RAG,Agent,MoE等方向。
1、AI客服系统日常运营 -负责大模型驱动的智能客服对话流监控与调优,实时诊断异常对话场景 -基于用户反馈与业务需求,对接供应商优化Prompt工程设计与知识库结构,提升首次解决率 2、数据驱动效能提升 -监测关键指标:对话满意度、意图识别准确率、转人工率,定期生成运营洞察报告 -构建领域专属语料库,协同算法团队完成垂类场景的模型强化训练 3、风险管理与合规 -建立AI应答内容安全审核机制,预防法律/品牌声誉风险 -制定应急预案,确保系统故障时人工服务无缝接管 4、跨部门协作与创新 -联动产品、技术团队推动需求落地,例如知识库动态更新接口开发、多模态(语音/图像)应答功能迭代
1.策略设计与迭代: 深度参与DeepSeek模型在搜索、内容创作(创意/实用写作)、多模态、Agent等场景的应用。通过数据分析与用户行为洞察,制定模型优化策略,定义数据生产标准(SFT/RL),驱动模型效果(如准确性、有用性、安全性)持续提升; 2.评测体系构建: 设计科学、多维度的模型评测体系。主导构建内部测试集,制定人工评估与自动化评估标准,量化模型能力边界,对模型上线后的核心指标负责; 3.高质量数据建设: 负责后训练阶段的高质量语料挖掘与构建。针对特定领域(如医学、法律、小说创作)建立专家级的数据标注,确保训练数据的高质量供给。