阿里巴巴未来生活实验室-大模型语音应用算法实习生
任职要求
1、计算机科学、人工智能、机器学习等硕士或博士在校生,语音方向优先; 2、对主流的多模态大模型和文本大模型的原理有较为深入的理解,对业界语音大模型应用方案如Astra有较为深入的了解; 3、具备较好的编程能力,动手能力强,熟练使用Java/C/C++和Python,熟练使用至少一种开源深度学习框架; 4、优秀的英文文献阅读能力,有顶会顶刊论文(ICASSP/Interspeech/ACL/EMNLP/CVPR等)发表者优先,ACM竞赛获奖者优先; 5、熟悉语音降噪、声纹识别、语音识别、语音合成等常用音频处理任务,了解常见声学模型和声码器、具有相关算法成果落地经验者优先; 6、有语音+图像多模态大模型落地应用经验者优先。
工作职责
1、设计和研发语音多模态大模型在业务场景的落地方案,负责语音模态业务整体pipeline优化,包括但不限于降噪、声纹、ASR、TTS等; 2、结合大模型Agent技术,优化语音+图片多模态下的real time业务落地交互方案; 3、解决业务落地中的关键技术问题,持续跟进业界语音大模型技术最新进展,加速新技术的引进、适配与优化。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 1、承担抖音内多元语音交互场景中的语音模型需求,涵盖抖音AI分身音视频对话、客服热线、VOIP场景下的相关音频算法研发工作;包括对语音识别、合成、对话理解等模型展开针对性训练与优化,全力提升对话效果及语音合成稳定性和表现力; 2、深入探索端到端语音大模型的落地与优化举措,致力于降低语音交互延时,显著提升语音对话品质;同时,专注于语音合成/音频AI生成相关算法模型的研发与精进,跟进语音领域前沿技术研究,负责音频表征模型、Seq2Seq底膜的研发优化; 3、紧密跟踪研发业界先进的音频技术进展,积极探索语音/音频领域最新技术,并推动其成功落地于抖音产品之中。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 1、承担抖音内多元语音交互场景中的语音模型需求,涵盖抖音AI分身音视频对话、客服热线、VOIP场景下的相关音频算法研发工作;包括对语音识别、合成、对话理解等模型展开针对性训练与优化,全力提升对话效果及语音合成稳定性和表现力; 2、深入探索端到端语音大模型的落地与优化举措,致力于降低语音交互延时,显著提升语音对话品质;同时,专注于语音合成/音频AI生成相关算法模型的研发与精进,跟进语音领域前沿技术研究,负责音频表征模型、Seq2Seq底膜的研发优化; 3、紧密跟踪研发业界先进的音频技术进展,积极探索语音/音频领域最新技术,并推动其成功落地于抖音产品之中。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 1、承担抖音内多元语音交互场景中的语音模型需求,涵盖抖音AI分身音视频对话、客服热线、VOIP场景下的相关音频算法研发工作;包括对语音识别、合成、对话理解等模型展开针对性训练与优化,全力提升对话效果及语音合成稳定性和表现力; 2、深入探索端到端语音大模型的落地与优化举措,致力于降低语音交互延时,显著提升语音对话品质;同时,专注于语音合成/音频AI生成相关算法模型的研发与精进,跟进语音领域前沿技术研究,负责音频表征模型、Seq2Seq底膜的研发优化; 3、紧密跟踪研发业界先进的音频技术进展,积极探索语音/音频领域最新技术,并推动其成功落地于抖音产品之中。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data-抖音团队,负责抖音APP的推荐算法、内容算法、对话算法及大数据工作,对接各场景业务(短视频,直播,图文,电商,社交,生态,投稿,消息,同城,生活服务,音乐,评论,内容理解&安全、智能对话等)。我们的工作涉及大规模推荐算法的优化、复杂约束的优化问题的解决、内容理解、LLM应用以及新业务方向探索、CV/NLP等多个学术领域的算法改进工作、对多种场景的推荐架构的设计和实现和对产品数据的复杂深入的分析工作。在这里,你可以深入钻研机器学习算法的改进和优化,探索工业界最领先的推荐系统架构和推荐大模型算法、可以通过使用最新的大模型等技术支持抖音的数字人、智能客服、AI工具等创新探索;可以通过对产品的深度理解和思考,将算法应用到业务中去;也可以通过对产品和内容生态的深度分析,影响产品未来的发展方向。 1、承担抖音内多元语音交互场景中的语音模型需求,涵盖抖音AI分身音视频对话、客服热线、VOIP场景下的相关音频算法研发工作;包括对语音识别、合成、对话理解等模型展开针对性训练与优化,全力提升对话效果及语音合成稳定性和表现力; 2、深入探索端到端语音大模型的落地与优化举措,致力于降低语音交互延时,显著提升语音对话品质;同时,专注于语音合成/音频AI生成相关算法模型的研发与精进,跟进语音领域前沿技术研究,负责音频表征模型、Seq2Seq底膜的研发优化; 3、紧密跟踪研发业界先进的音频技术进展,积极探索语音/音频领域最新技术,并推动其成功落地于抖音产品之中。