logo of tongyi

通义通义实验室-语音识别算法专家-北京/杭州

社招全职2年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 计算机科学、人工智能或相关领域的硕士或博士学位,3年以上专注于语音识别机器学习深度学习的实际工作经验,具备语音大模型研发经验者优先。
2. 熟练掌握pytorch、tensorfl…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责语音识别和语音对话大模型的算法研发与优化,包括声学模型、LLM模型和解码器等,探索新的算法架构,建设高效率、低时延的语音应用系统。
2. 结合业务需求,持续改进现有模型的性能,确保其在不同应用场景下的准确性和鲁棒性,提升语音助手和语音智能体用户体验。
3. 构建和管理大规模语音识别和语音对话语料库,用于训练、验证和测试模型。
4. 跟踪前沿技术和研究动态,提出新颖的算法思路和解决方案。
包括英文材料
学历+
语音识别+
机器学习+
深度学习+
大模型+
还有更多 •••
相关职位

logo of antgroup
社招4年以上技术类-算法

1. 参与前沿AI技术探索与行业级产品落地的双轨发展战略,与顶尖团队协作攻克多模态理解与生成智能体系统的技术挑战,推动多模态RAG与智能体技术的产品化落地; 2. 设计并实现融合文本、图像、语音、视频等多模态数据的检索增强生成系统,优化跨模态语义对齐与知识检索能力; 3. 设计基于多模态大模型的智能体核心算法,实现任务规划、意图识别、工具调用及多智能体协作系统。

更新于 2026-03-25北京|杭州
logo of youku
社招3年以上

应用声纹识别、音频理解、音频增强等音频技术处理海量音频数据,紧跟业界前沿技术方向,参与构建生成式音频系统,从文本、视频、音频等多模态输入出发,研发高自然度、风格多样、可控性强的语音、音乐与音效生成模型,期待追求卓越、自我驱动、聪明乐观的优秀人士加入虎鲸文娱集团,共同开创影视工业化的商业新格局。 具体职责包括但不限于: 1、负责基于海量数据和复杂业务场景,和团队其他成员一起构建面向真实影视剧场景的一流音频合成系统,共同推动技术产品化与商业化; 2、负责音频合成相关算法设计,覆盖以下一个或多个方向: ꔷ 高拟人度、情绪丰富的语音合成,包括Emotional TTS、Speaker Recognition、Instant Voice Clone等模块的优化与落地; ꔷ 跨模态音频生成,包括Video-to-Audio、Text-to-Audio等方向的模型优化与落地; ꔷ 端到端的音乐生成,包括Lyric-to-Song, CoT, ICL等模块的优化与落地; 3、跟踪业界前沿技术和方法,持续探索音频合成技术的新能力和新应用,解决资源受限场景的实际问题,持续提升音频合成核心能力

更新于 2025-12-16北京|杭州
logo of alibaba
社招2年以上

1、 参与语音大模型的研发,包括语音识别、语音合成、音色克隆、端到端合成等技术; 2、探索歌曲、音乐等音频的理解与合成技术; 3、打造全模态的大模型; 4、将以上技术落地到淘天业务,考虑模型性能与效率。

更新于 2025-07-01北京|杭州
logo of alibaba
社招1年以上

1、参与开发对话式AI助手在电商领域应用的相关算法工作; 2、参与对话式AI助手语音识别、语音合成、自然语言理解、对话管理等相关核心技术的研发; 3、负责对AI助手进行性能优化,并且提升用户体验; 4、跟踪业界前沿技术,进行技术预研。

更新于 2025-10-11北京|杭州