网易语音大模型实习生
任职要求
1.2026年及之后毕业,计算机/电子工程/人工智能相关专业硕士及以上全日制在读。 2.熟练掌握Python及PyTorch/TensorFlow框架。 3.具备深度学习基础(熟悉LLM模型)。 4.了解语音处理核心任务(ASR…
工作职责
1.参与端到端语音交互大模型的研发、微调与效果优化,持续提升模型在对话流畅度、意图理解、鲁棒性等方面的核心能力。 2.针对LLM开源语音模型进行二次开发与功能拓展,负责根据具体需求进行功能模块的定制化修改、扩展与集成,以满足特定场景的应用要求。 3.参与语音数据集构建全流程:数据采集、筛选、标注、质量评估。 4.设计并实施模型微调方案,持续提升语音交互效果与鲁棒性。 5.建立多维度的模型评估体系(客观指标+主观测试)。
1.根据项目需求,与数据专家及算法团队一起制定数据方案(中文&英文)。参与语音数据的录制、标注、校验与质量评估,保证数据工作的质量和准确性。 2.参与设计语音模型评测方案,跟进模型训练各阶段的模型效果评估,撰写评测/反馈报告。 3.关注主流语音模型及AI产品的相关信息,进行市场调研与用户研究,撰写调研报告。 4.与上下游相关部门协作,跨团队沟通协调,保证项目顺利推进。
你将做什么: 1. 从事情语音大模型方向的前沿技术探索,包括但不限于语音交互大模型、omni 大模型、ASR、TTS、音频理解、音乐合成、音频多模态等方向。 2. 调研前沿工作,跟踪业界相关进展。 3. 算法研发和模型训练,包括但不限于代码编写、数据处理。
1、负责为不同角色设计人设并撰写富有表现力的文本语料,旨在为合成语音注入情感、表现力和角色特质。从声学及表演角度参与发音人筛选; 2、参与构建专业的数据生产流程,制定语言学标注标准。对录音数据进行质量检查。整理并制定发音和韵律规则; 3、参与搭建语音合成效果的主观与客观评价流程。从音质、自然度、表现力、发音准确度等维度进行专业评测并提供优化建议。
参与语言大模型、视觉大模型、语音大模型、多模态大模型的评测与研究工作,具体工作内容包括但不限于: 1、从大模型应用视角出发,建设科学、全面的大模型评测体系,制定并实施评测标准与评测方案。 2、开发算法对数据进行处理、理解,建设高质量数据pipeline,并基于科学、全面的评估体系构建数据集,系统评估模型能力,产出评测报告,指引大模型相应能力的提升。 3、开发算法,利用大模型辅助、替代人工标注,准确、高效的进行半自动化、自动化的模型评测,降低评测成本、提升评测效率。 4、对模型评测中发现的模型能力短板、模型能力变化、不符合认知的异常进行研究分析,产出研究分析结论,指引大模型相应能力的提升。具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响,以数据相关研究为例,包括不限于研究不同数据类型、不同数据配比、不同数据加入时机、不同数据规模等变量对各类模型能力的影响。 5、紧密关注大模型方向的前沿技术进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 6、紧密关注大模型应用落地的行业最新进展,结合行业进展思考大模型评测、训练的发展趋势,对模型评测体系、机制进行迭代。