logo of netease

网易大模型数据标注(文本与语音方向)​​

社招全职3-5年网易云音乐地点:杭州状态:招聘

任职要求


• 本科以上学历,理工科专业背景或具备出色写作能力者优先
• 5年+ AI数据运营/标注管理经验,​主导过文本或语音数据标注项目​(LLM/TTS项目优先)。
• 有外包团队管理经验(10人以上规模)。
能力​:
• 精通标注质量管理方法论(如Kappa系数、模糊样本处理机制)。
• 熟悉主流标注工具(Prodigy、Label Studio等)及开源大模型(如LLaMA、Whisper)。
• 加分项​:有虚拟人/对话系统数据标注经验,或语音数据处理背景。

工作职责


1.全流程搭建与管理​
• 主导文本对话、TTS音频数据的标注流程设计,制定多模态标注规范与质控体系(含预标注策略、自动化质检)。
2.团队与外包管理​
• 组建、管理标注团队(含全职/外包),负责招募、培训、绩效考核及成本优化。
3.数据质量与模型迭代闭环​
• 建立数据质量监控指标,分析模型缺陷,推动标注策略迭代反哺模型优化。
4.跨团队协作​
• 联动算法、产品、语音技术团队,对齐标注需求与训练目标,确保数据驱动虚拟人交互体验提升。
5.效率工具开发​
• 推动智能标注工具开发(如基于大模型的自动预标注、批量质检),提升标注效率30%+。
包括英文材料
学历+
Java+
MySQL+
Redis+
消息队列+
多线程+
Linux+
大模型+
Llama+
相关职位

logo of tencent
社招TEG技术

1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系,以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队,围绕以下关键研究任务开展工作:; 2.研发具备通用能力的端到端语音大模型,包括多语言语音识别、语音翻译、语音合成,副语言信息理解,音频理解 等; 3.推进 语音表征学习 与 语音编码/解码 架构研究,构建适用于多任务、多模态的统一声学表征; 4.探索音频和语音在多模态大模型中的表征对齐与融合机制,与图像、文本联合建模; 5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。

更新于 2025-06-24
logo of tencent
社招TEG技术

1.我们正在构建原生支持视觉、音频与文本的大规模多模态模型体系,以推动人工智能系统实现对物理世界的全面感知与理解。你将加入语音与音频方向的核心研究团队,围绕以下关键研究任务开展工作:; 2.研发具备通用能力的端到端语音大模型,包括多语言语音识别、语音翻译、语音合成,副语言信息理解,音频理解 等; 3.推进 语音表征学习 与 语音编码/解码 架构研究,构建适用于多任务、多模态的统一声学表征; 4.探索音频和语音在多模态大模型中的表征对齐与融合机制,与图像、文本联合建模; 5.构建并维护高质量的语音多模态数据集、自动标注与数据合成技术。

更新于 2025-06-24
logo of meituan
实习核心本地商业-基

数据构建与处理: 深入参与大模型训练数据的设计与构建,亲手处理包括但不限于文本数据,平行语料、图文交错、图生图、图像序列等多样化数据。负责数据的采集、清洗、标注和预处理工作,为模型训练提供高质量的数据基础 模型训练与调优:参与或主导SFT / RL等后训练探索,提升模型在各类下游任务中的实际应用能力 探索如何通过数据和训练策略,激发模型采样多模态token的能力,并将其应用于解决真实物理世界的问题,参与数据驱动模型能力提升的全过程

更新于 2025-08-07
logo of bytedance
社招A11449

团队介绍:V-AI团队当前支持抖音直播、开放平台、V项目(AI分身/小火人等)业务方向,涵盖了自然语言处理、计算机视觉、图形学等技术领域,通过大模型技术来创造新的互动玩法、制作美术资产、提升研发运营效率等,当前已上线和开展中的项目包括直播大模型(助播/伴播/独播)、角色多模态对话大模型、研发智能助手、3D模型生成大模型、动作生成大模型等。 课题介绍: 背景:随着虚拟现实、增强现实、数字孪生等技术的快速应用,3D数字资产已成为构建沉浸式数字空间的核心要素。在影视动画、游戏开发、直播、社交等领域,3D模型与3D动作的需求呈现爆发式增长。然而,传统3D内容生产高度依赖人工建模与动作捕捉技术,存在效率低、成本高、创作门槛高等瓶颈,难以满足直播等场景中大规模、高保真、多样化、高频迭代的3D内容需求。近年来,以生成式人工智能(AIGC)为代表的大模型技术在2D图像与视频生成领域取得突破性进展,但在3D内容生成领域仍面临表征复杂、多模态数据稀缺、物理规律约束严格等难题。如何将大模型技术与3D生成任务深度融合,实现“文本/图像到3D模型”、“文本/语音到动作”的高质量生成,形成建模+驱动的一站式美术资产生成管线以适配直播场景下资产迭代速度快,品质要求高的需求是当前的重要研究内容。 课题挑战: 传统方法依赖人工建模工具或程序化生成算法,存在生成效率与创作自由度之间的固有矛盾。AI技术虽然能很好地弥补人工生成效率不足的问题,但仍然存在如下挑战 1. 表征困难:与一维文本和二维图像可以自然地实现结构化表征不同,3D模型由于其多模态(如几何、纹理、材质等)、结构复杂和高维度等特性,使得其表征更为复杂。而3D动作又与物理世界紧密相关,且动态复杂度高。因此,如何高效地表征3D几何形状和3D动作,同时确保高品质的生成,仍然是亟需突破的课题。 2. 生成困难:模型生成需同时保障结构完整性、拓扑合理性和细节丰富性;动作生成需兼顾运动多样性、物理约束与时空连续性。现有方法易出现模型畸变、贴图瑕疵、动作力度不足和多样性差等问题。 3. 数据不足:3D数据标注成本高、多模态对齐难度大,且现有公开数据集规模有限,导致大模型训练面临数据不足的问题;如何把相关模态数据(图像、视频)利用起来,提升3D模型和3D动作的生成品质也是当前的重大挑战。 4. 评估体系不完善:缺乏统一的3D生成质量量化指标,现有评价多依赖人工主观判断,难以客观衡量生成的几何精度、动作自然度与多模态语义一致性,因此建立完善、客观、可量化的评价体系是保障技术迭代的关键基石。 1、负责抖音、抖音直播及相关产品的大语言模型/多模态大模型/AIGC算法研发,如数字人、3D生成、动作生成、智能对话等相关工作; 2、负责关键场景的算法优化,构建高质量的模型和Agent系统,提升业务效果; 3、跟踪AI前沿技术进展,推动前沿技术的产品化落地。

更新于 2025-05-27