通义通义实验室-语音识别/语音大模型算法专家-通义百聆
社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘
任职要求
1. 计算机科学、信号处理、语音处理、人工智能等相关领域硕士及以上学历。 2. 2年以上音频AI研发经验,包括但不限于 音频识别及理解、音频生成、数字人、多模态交互 等方向。 3. 扎实的深度学习基础,熟练掌握PyTorch/TensorFlow等框架。 4. 优秀的编程能力(Python/C++),具备大规模音频数据处理经验。 5. 良好的跨团队协作能力,对技术落地有强烈热情。 加分项: 1. 在音频、多模态、机器学习顶会或期刊发表过相关论文。 2. 深入了解语音在各类业务场景应用落地的相关挑战。 3. 具备多模态(语音+视觉+文本)交互系统研发及落地经验。
工作职责
团队介绍: 我们是阿里巴巴通义实验室语音团队,在音频AI领域持续推动技术创新与产业落地。我们的成果包括: 1. ModelScope平台语音/音频板块核心算法团队 2. FunASR、CosyVoice、3D-Speaker等开源社区发起者与核心维护团队 3. 通义听悟(tingwu.aliyun.com)音频及语义算法团队 4. 阿里云智能语音交互及灵积语音模型服务核心算法提供方 岗位职责: 1. 主导多模态理解/音频大模型的前沿算法研究及产业落地。 2. 音频理解方向: (1)研发语音识别、语音翻译以及音频分析等理解算法。 (2)开发跨模态(语音/文本/视觉)的音频语义理解系统。 (3)探索音频大模型架构设计。 (4)推动算法成果转化:通过ModelScope开源社区创造研究价值,或通过阿里云产品体系创造商业价值。 (5)持续跟踪国际前沿技术动态(ICASSP/Interspeech/NeurIPS/ICLR等),参与国际会议、研讨会,与全球顶级团队进行交流合作。
包括英文材料
学历+
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
TensorFlow+
https://www.youtube.com/watch?v=tpCFfeUEGs8
Ready to learn the fundamentals of TensorFlow and deep learning with Python? Well, you’ve come to the right place.
https://www.youtube.com/watch?v=ZUKz4125WNI
This part continues right where part one left off so get that Google Colab window open and get ready to write plenty more TensorFlow code.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
数字人+
https://www.youtube.com/watch?v=42_lCOayS6s
Taking chatbots to the next level, with emotion recognition and gesture control.
https://www.youtube.com/watch?v=DFHuV7nOgsI&list=PL05umP7R6ij13it8Rptqo7lycHozvzCJn
This lecture covers the history of virtual humans, from early models form the 80s until the more recent ones.
相关职位
社招2年以上技术类-算法
1. 负责语音合成、语音识别、端到端语音交互大模型算法的基础研究和应用落地; 2. 参与语音合成与识别技术在业务场景落地,解决落地过程中的前沿问题,持续优化语音合成与识别核心技术效果; 3. 深入调研和关注音频/NLP/多模态/全模态等方向的前沿技术,持续探索语音技术的新能力和新应用。
更新于 2025-09-19
社招2年以上
1、 参与语音大模型的研发,包括语音识别、语音合成、音色克隆、端到端合成等技术; 2、探索歌曲、音乐等音频的理解与合成技术; 3、打造全模态的大模型; 4、将以上技术落地到淘天业务,考虑模型性能与效率。
更新于 2025-07-01
社招2年以上技术类-算法
1. 负责语音识别和语音对话大模型的算法研发与优化,包括声学模型、LLM模型和解码器等,探索新的算法架构,建设高效率、低时延的语音应用系统; 2. 结合业务需求,持续改进现有模型的性能,确保其在不同应用场景下的准确性和鲁棒性,提升语音助手和语音智能体用户体验; 3. 构建和管理大规模语音识别和语音对话语料库,用于训练、验证和测试模型; 4. 跟踪前沿技术和研究动态,提出新颖的算法思路和解决方案。
更新于 2025-08-19