网易大模型数据标注(文本与语音方向)
任职要求
• 本科以上学历,理工科专业背景或具备出色写作能力者优先
• 5年+ AI数据运营/标注管理经验,主导过文本或语音数据标注项目(LLM/TTS项目优先)。
• 有外包团队管理经验(10人以上规模)。
能力:
• 精通标注质量…工作职责
1.全流程搭建与管理 • 主导文本对话、TTS音频数据的标注流程设计,制定多模态标注规范与质控体系(含预标注策略、自动化质检)。 2.团队与外包管理 • 组建、管理标注团队(含全职/外包),负责招募、培训、绩效考核及成本优化。 3.数据质量与模型迭代闭环 • 建立数据质量监控指标,分析模型缺陷,推动标注策略迭代反哺模型优化。 4.跨团队协作 • 联动算法、产品、语音技术团队,对齐标注需求与训练目标,确保数据驱动虚拟人交互体验提升。 5.效率工具开发 • 推动智能标注工具开发(如基于大模型的自动预标注、批量质检),提升标注效率30%+。
1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系,以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队,围绕以下关键研究任务开展工作:; 2.研发具备通用能力的端到端语音大模型,包括多语言语音识别、语音翻译、语音合成,副语言信息理解,音频理解 等; 3.推进 语音表征学习 与 语音编码/解码 架构研究,构建适用于多任务、多模态的统一声学表征; 4.探索音频和语音在多模态大模型中的表征对齐与融合机制,与图像、文本联合建模; 5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。
1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系,以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队,围绕以下关键研究任务开展工作:; 2.研发具备通用能力的端到端语音大模型,包括多语言语音识别、语音翻译、语音合成,副语言信息理解,音频理解 等; 3.推进 语音表征学习 与 语音编码/解码 架构研究,构建适用于多任务、多模态的统一声学表征; 4.探索音频和语音在多模态大模型中的表征对齐与融合机制,与图像、文本联合建模; 5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。
数据构建与处理: 深入参与大模型训练数据的设计与构建,亲手处理包括但不限于文本数据,平行语料、图文交错、图生图、图像序列等多样化数据。负责数据的采集、清洗、标注和预处理工作,为模型训练提供高质量的数据基础 模型训练与调优:参与或主导SFT / RL等后训练探索,提升模型在各类下游任务中的实际应用能力 探索如何通过数据和训练策略,激发模型采样多模态token的能力,并将其应用于解决真实物理世界的问题,参与数据驱动模型能力提升的全过程
1.拟人SFT数据构建与策略设计 (1)负责面向超拟人语音交互场景的SFT数据方案设计,涵盖角色人设一致性、多轮对话逻辑、情感表达等维度,构建高质量对话语料。 (2)针对多模态交互、A陪伴等需求,设计角色扮演数据的标注规范,包括身份背景、经典台词、行为模式等细粒度标签。 (3)基于业务场景(如儿童教育、情感陪伴、游戏NPC、模拟面试等)设计符合角色设定的对话逻辑,提升用户交互沉浸感。 (4)建立SFT数据评估体系,针对人设一致性、意图识别准确率、对话流畅度等指标进行量化分析与迭代。 2.SFT数据在语音交互模型中的优化 (1)结合语音交互链路(ASR→LLM→TTS),通过SFT技术优化大模型的对话能力,重点提升上下文理解、情感响应准确度及多轮对话连贯性。 (2)探索角色扮演数据在语音Agent中的应用,例如通过Prompt工程控制对话风格、情绪倾向,实现个性化交互体验。 (3)协同声纹识别、情感计算等技术,构建语音-文本-用户画像对齐的数据集,支持个性化交互(如儿童声线识别、成人情感分析)。 (4)推动SFT数据在低延迟语音交互场景的落地,优化端到端响应效率(如实时打断、长上下文记忆等能力)。