logo of bytedance

字节跳动计算语言学实习生(ASR方向)-Data语音

实习兼职A45972地点:北京状态:招聘

任职要求


1、本科及以上学历在读,语言类相关专业优先;
2、应具备较好的语音感知,如音素辨析力、音高和韵律感知;系统学习过语音学、音系学的申请人优先;
3、接触过语音识别
登录查看完整任职要求
微信扫码,1秒登录

工作职责


日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。
团队介绍:Data语音团队致力于语音/音频/音乐相关的AI核心技术研发和产品创新。部门支撑音频和多模态内容从生产、编辑到消费的全流程,赋能内容创作和互动,并以中台形式支持集团多个业务,提供业界前沿的技术能力与解决方案。

1、结合实际语音工程,调研该语种语音音系特征,完善语言规则及语音标注规范,为业务和算法提供知识技能支持;
2、配合产品对业务市场、配色方案及本地流行文化等进行调研,支持字节跳动多个国际化业务;
3、协助管理该语种的数据,负责标注数据的质量监控及验收;对语音技术效果做出评价与反馈,协助算法人员进行优化;
4、目前招收的语种方向:英语、法语、德语、印尼语、西语。
包括英文材料
学历+
语音识别+
相关职位

logo of tcl
实习研发技术类

工作职责: 1. 参与大模型研发项目,涉及模型的数据处理、训练、微调、测试、部署、推理加速等工作,工作方向包括asr、tts、cv、nlp、RL等方向。 2、参与大模型的开发、应用、落地、持续迭代。这包括工具的适配、模型的精细调优、大规模模型训练,以及对语料库的持续挖掘与清洗,旨在确保模型能够满足具体的业务场景和产品需求。 3、参与Prompt Engineering的研发与设计,以进一步提高模型在问题解决方面的能力和自然语言生成的质量。 4、对实验结果进行细致的分析,深入探究可能存在的问题,并针对这些问题设计解决方案。 5、持续关注业界大语言模型的最新进展,并积极探索如何将这些先进技术应用于公司的具体项目中。 6、与团队其他成员紧密协作,共同应对AI技术领域中的挑战性问题。 7、根据项目的实际需求,撰写清晰、详尽的技术文档和报告。

更新于 2025-09-01上海
logo of tcl
实习研发技术类

工作职责: 1. 参与大模型研发项目,涉及模型的数据处理、训练、微调、测试、部署、推理加速等工作,工作方向包括asr、tts、cv、nlp、RL等方向。 2、参与大模型的开发、应用、落地、持续迭代。这包括工具的适配、模型的精细调优、大规模模型训练,以及对语料库的持续挖掘与清洗,旨在确保模型能够满足具体的业务场景和产品需求。 3、参与Prompt Engineering的研发与设计,以进一步提高模型在问题解决方面的能力和自然语言生成的质量。 4、对实验结果进行细致的分析,深入探究可能存在的问题,并针对这些问题设计解决方案。 5、持续关注业界大语言模型的最新进展,并积极探索如何将这些先进技术应用于公司的具体项目中。 6、与团队其他成员紧密协作,共同应对AI技术领域中的挑战性问题。 7、根据项目的实际需求,撰写清晰、详尽的技术文档和报告。

更新于 2025-10-13上海
logo of tcl
实习研发技术类

工作职责: 1. 参与大模型研发项目,涉及模型的数据处理、训练、微调、测试、部署、推理加速等工作,工作方向包括asr、tts、cv、nlp、RL等方向。 2、参与大模型的开发、应用、落地、持续迭代。这包括工具的适配、模型的精细调优、大规模模型训练,以及对语料库的持续挖掘与清洗,旨在确保模型能够满足具体的业务场景和产品需求。 3、参与Prompt Engineering的研发与设计,以进一步提高模型在问题解决方面的能力和自然语言生成的质量。 4、对实验结果进行细致的分析,深入探究可能存在的问题,并针对这些问题设计解决方案。 5、持续关注业界大语言模型的最新进展,并积极探索如何将这些先进技术应用于公司的具体项目中。 6、与团队其他成员紧密协作,共同应对AI技术领域中的挑战性问题。 7、根据项目的实际需求,撰写清晰、详尽的技术文档和报告。

更新于 2025-12-04上海|深圳
logo of alibaba
实习淘天集团T-St

如果你,期望在阿里巴巴亿级用户生态中,定义下一代数字人的“灵魂”与“听觉”,打造具备极致情感表现力和深度理解能力的智能语音交互系统; 如果你,期望探索高表现力语音合成的前沿,突破传统韵律限制,研发支持零样本音色克隆、多情感/多方言实时切换的语音生成技术,让数字人的声音不再冷冰冰,而是拥有细腻的情绪起伏和呼吸感; 如果你,期望攻克语音多模态理解的核心挑战,不再局限于单一的文本转译,而是通过语音大模型直接从原始音频中建模情感、意图、环境与语气,实现对用户深层次语义和情绪的精准捕捉; 如果你,期望挑战1v1全双工实时对话的技术难题,研发低延迟的端到端语音到语音生成架构,攻克打断机制、交互反馈等难题,让数字人具备如同真人般自然、流畅的对答体验; 如果你,期望深入研究多模态对齐与融合,将语音特征与视觉表情、文本语义深度绑定,构建“音-意-形”高度统一的数字人交互大脑,解决业界在复杂对话环境下理解不准、响应过慢的技术痛点。 加入我们,你的算法将赋能AI智能导购、虚拟主播等核心场景。让我们一起用语音连接智能,开启数字人交互的新纪元! 研究背景:目前的数字人交互大多是“对讲机”模式(用户说完 -> 系统处理 -> 系统回答),存在明显的延迟和僵硬感。要实现真正的1v1自然对话,需要数字人具备实时监听、情感对齐和即时反馈的能力。 研究课题: 1、流式情感感知: 研究如何在用户说话过程中,实时通过流式音频提取情绪、语气和意图,而非等待整句话结束。 2、打断(Barge-in)与反馈机制: 研发鲁棒的打断检测算法,并让数字人学会自发性口语(如“嗯”、“对”等 Backchanneling),提升交互真实感。 3、预测性生成: 探索如何根据用户已说出的前半句内容,提前初始化 TTS 渲染状态,实现“边听边想边说”的流式效果。 成长支持&成长空间: 1、亲手参与从 0 到 1 定义数字人实时交互标准,体验技术改变数亿人购物方式的成就感。 2、 算力自由: 远离“算力焦虑”,专注于算法创新。 3、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,为研究零样本学习、多模态对齐等前沿课题提供土壤。 4、 鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至ICASSP、NeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。

更新于 2026-01-21北京|杭州