logo of quark

夸克语音大模型数据实习生

实习兼职日常实习生地点:杭州 | 上海状态:招聘

任职要求


1、语言学、语音学、方言学、计算机语言学等专业背景;
2、有戏剧、编剧、播音主持、表演等经验优先;
3、对语言和声音有高敏感度,具备优秀的文本创作能力和音质审美,普通话标准。熟练使用方言或第二…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责为不同角色设计人设并撰写富有表现力的文本语料,旨在为合成语音注入情感、表现力和角色特质。从声学及表演角度参与发音人筛选;
2、参与构建专业的数据生产流程,制定语言学标注标准。对录音数据进行质量检查。整理并制定发音和韵律规则;
3、参与搭建语音合成效果的主观与客观评价流程。从音质、自然度、表现力、发音准确度等维度进行专业评测并提供优化建议。
包括英文材料
Python+
脚本+
相关职位

logo of amap
实习高德研究型实习生

团队介绍: 高德语音技术部,是负责高德全栈语音技术的综合性团队。团队核心技术能力包括:自研TTS基座大模型、端侧模型、多语种、RTC流式语音、语音内容生成、语音识别、多模态模型、模型服务与推理。业务支撑面向高德全部核心场景,包括语音导航、AI领航员、IP语音定制、国际化、AI语音助手、智能外呼、内容生成等。 团队定位是通过前沿语音技术的研究和落地,赋能下一代AI产品创新。近期部分技术(https://arxiv.org/abs/2507.12197)和产品进展介绍(https://mp.weixin.qq.com/s/cCeHbNW0jbC_LNVPZlGeHg) 具体职责: 1. 协助语音大模型的数据构建,搭建高效高质的语音数据生产Pipeline 和数据标准,优化Pipeline算子,用高质量数据提升技术预研和业务落地的效果; 2. 参与语音大模型的端到端评测,搭建科学敏捷的评测Pipeline和评测标准,用全面真实的评测推动模型效果优化提升; 3. 深度理解对话交互、音视频创作的技术和产品趋势,设计与业务目标贴合的数据与评测方案;与团队协同,积极探索自动化数据生产/模型评估、数据合成等方法,提高数据标注/评测效率;

更新于 2025-12-09北京
logo of meituan
实习核心本地商业-基

数据构建与处理: 深入参与大模型训练数据的设计与构建,亲手处理包括但不限于文本数据,平行语料、图文交错、图生图、图像序列等多样化数据。负责数据的采集、清洗、标注和预处理工作,为模型训练提供高质量的数据基础 模型训练与调优:参与或主导SFT / RL等后训练探索,提升模型在各类下游任务中的实际应用能力 探索如何通过数据和训练策略,激发模型采样多模态token的能力,并将其应用于解决真实物理世界的问题,参与数据驱动模型能力提升的全过程

更新于 2025-08-07北京|上海
logo of bytedance
实习A178635

日常实习:面向全体在校生,为符合岗位要求的同学提供3个月以上的项目实践机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责为豆包大模型提供理科竞赛级(数学/代码/理科...)知识的数据工作,包括标准/方法的设计、数据的生产和检验; 2、评价模型效果,并调整优化竞赛问题的整体解答思路,判断解答的优缺点; 3、通过模型&人工结合的方式,设计适用于大模型的复杂逻辑推理的数据生产方法; 4、与研发工程师协作,讨论确定现状和问题,明确下一步提升模型推理等能力的方案。

更新于 2025-02-17北京
logo of bytedance
实习A84101

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责大模型工科领域相关数据的标注工作,确保标注数据的准确性和规范性,为模型训练提供高质量数据支撑; 2、参与大模型的评测任务,针对工科场景下的模型生成能力进行测试和评估,分析模型表现,提出改进建议; 3、与模型研发团队紧密互动,深入理解模型需求,设计符合工科专业场景的数据标注标准和评测方案; 4、处理多工科领域相关的数据任务,涵盖土木、力学、测绘、机械工程、计算机、能源等专业场景,保障数据的全面性和适用性; 5、运用专业知识及Python等工具,辅助进行数据处理脚本的编写、优化,提升数据处理效率。

更新于 2025-07-22北京