通义音频基础大模型算法工程师
校招全职通义2026届秋季校园招聘地点:北京 | 杭州 | 上海状态:招聘
任职要求
1. 计算机科学、语音交互、人工智能、机器学习等领域的博士/硕士毕业生。 2. 有较强的代码能力,具有丰富的TTS/Codec/流ASR研究经验,具有相关数据处理经验;精通 Python 以及 Pytorch 等深度学习框架;熟悉Transformer架构以及大语言模型基础知识。 3. 善于平衡研究目标及落地实现,具备跨学科视野与协作意识,能够与工程、产品等多学科团队紧密合作,推动研究成果快速落地并产生实际影响力。 4. 关注技术影响力,具有开源开放精神,对基础模型的前沿问题有持续热情,具备独立思考能力和系统性研究思维,敢于挑战现有范式,能够独立应用技术解决复杂问题。 加分项: 1. 曾发表顶级会议论文并具有一定的学术影响力,包括但不限于:InterSpeech、CVPR、ECCV、NeurIPS、ICML、ICLR、ACL、TPAMI等国际顶级计算机会议/期刊。 2. 具有有深度的研究工作;有较强的工程能力,有开发音视频实时交互系统的经验;有高表现力/鲁棒 TTS 生成模型研究/开发经验。 3. 具有钻研和持续打磨好每一个小的研究点的钻研精神。 4. 拥有知名开源项目,在开源社区具有较好的影响力,或在竞赛中获得引领性的研究成果。
工作职责
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。
包括英文材料
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
Transformer+
https://huggingface.co/learn/llm-course/en/chapter1/4
Breaking down how Large Language Models work, visualizing how data flows through.
https://poloclub.github.io/transformer-explainer/
An interactive visualization tool showing you how transformer models work in large language models (LLM) like GPT.
https://www.youtube.com/watch?v=wjZofJX0v4M
Breaking down how Large Language Models work, visualizing how data flows through.
CVPR+
https://cvpr.thecvf.com/
ECCV+
https://eccv.ecva.net/
ECCV is the official event under the European Computer Vision Association and is biannual on even numbered years.
NeurIPS+
https://neurips.cc/
ICML+
https://icml.cc/
ICLR+
https://iclr.cc/
相关职位
社招WXG技术
1.主导微信大模型在应用层面的技术优化,涵盖智能体(Agent)、增强检索生成(RAG)、数据合成技术,以及针对垂直场景的模型调优与性能提升; 2.结合微信生态内的场景化数据,设计高效技术解决方案,推动AI前沿技术(如多模态推理、拟人化音频生成、长文本建模)的业务落地与核心指标优化; 3.密切关注AI学术界与工业界的技术进展(如Agent协作框架、轻量化微调方法),挖掘其在微信生态中的潜在应用场景与创新价值。
更新于 2025-06-12
社招2年以上微信基础AI探索
1.研发具备通用能力的端到端语音大模型,包括多语种语音识别、语音合成、声纹识别、副语言信息理解等; 2.推动上述语音技术与团队内部大语言模型 (LLM) 的深度融合,参与设计和实现智能语音交互系统架构; 3.在微信AI探索业务中,基于微信场景数据提供技术解决方案,探索业界前沿技术在业务中的落地与指标优化。
更新于 2025-08-12