通义通义实验室-语音大模型算法工程师-通义千问
任职要求
1. 计算机、机器学习等相关专业,博士及硕士优先。 2. 较强的代码能力,具有丰富的 TTS / Codec / 流ASR 研究经验,具有相关数据处理经验。 3. 精通 Python 以及 Pytorch 等深度学习框架。 4. 熟悉 Transformer 架构以及大语言模型基础知识。 5. 善于平衡研究目标及落地实现,且结果导向。 6. 良好的沟通和合作能力。 7. 关注技术影响力,具有开源开放精神。 加分项: 1. 曾发表顶级会议论…
工作职责
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。
通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。
团队介绍 通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 职位描述: 参与Qwen3-Music项目研究以及开源,构建世界级的影响力项目。 团队致力于打造全球最具影响力的音频模型,曾先后推出Qwen-Audio, Qwen-Omni, Qwen-TTS, Qwen-ASR等系列模型。
近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。语音是人人交流和人机交互中最自然、最便捷的模态,对语音AI的研究和应用已经成为人工智能领域的重要组成部分。在阿里巴巴,有关技术在流媒体播放、直播互动、智能客服、会议访谈、教育教学等场景,以及作为人机交互界面在AIoT、机器人、数字人等场景有广泛应用。 我们致力于通用人工智能(AGI)方向的前沿探索与产业落地创新。如果你对生成式AI、通用人工智能(AGI/ASI)前沿探索、多模态建模与智能交互系统有浓厚兴趣,并渴望深入参与下一代多模态通用模型的研发与演进,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。 工作职责 1. 负责语音生成/语音识别/语音合成/声纹/语种/情感等方向的算法研究和开发。 2. 负责语音信号处理的相关算法研究和开发,包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等。 3. 负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发。 4. 语音统一多模态大模型:研究下一代多模态通用大模型技术范式,实现文本、语音、视觉模态的联合建模。
近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。 我们致力于面向通用人工智能(AGI)的前沿探索与产业落地创新。一方面,在迈向AGI的长期路径中,随着大语言模型能力的持续进化,多模态感知、融合与推理等关键问题日益凸显,成为构建通用智能系统的核心挑战;另一方面,围绕典型行业场景如何将现有大模型能力有效转化为可落地、可扩展、可持续的解决方案,也成为当前研究与工程实践的重点方向。 如果你对生成式AI、智能交互、智能软件工程,智能文档处理,数据挖掘,多语言内容的理解和生成,跨模态检索与理解,多模态智能体GUI Agent以及法律金融等方向的AI应用算法研发有浓厚兴趣,或者对于大模型应用落地有浓厚兴趣,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。 1. 大语言模型算法创新:定义下一代大语言模型技术范式,实现文本、代码,语音、视觉等多模态信息的联合建模,探寻和解决对齐、推理、Agentic等方面的核心挑战,不断追寻通用大模型的效果上限。 2. 场景驱动的算法创新:结合上述业务场景,设计并优化大模型架构,研发低成本高效应用算法,提升效果、效率与鲁棒性。 3. 端到端技术闭环:从数据构建、模型训练、评测到部署,主导技术方案落地,通过AB实验、调用量、用户反馈验证价值。 4. 前沿应用技术探索:紧跟并能驱动LLM、Diffusion Models、强化学习等技术相关进展,定义技术新范式,快速实验并迭代创新方案,拉升相关模型在学术领域和应用场景的SOTA。