logo of tongyi

通义通义实验室-语音多模态大模型算法工程师-通义百聆

社招全职3年以上技术类-算法地点:北京 | 杭州状态:招聘

任职要求


1. 硕士及以上学历,计算机、人工智能等相关专业,3年以上语音大模型/多模态/跨模态相关的算法经验。
2. 深入掌握深度学习强化学习、表示学习等建模方法,在多模态建模和跨模态对齐等方面有深入研究。
3. 在国际顶级计算机会议/期刊(如NeurIPS、ICLR、ICML、CVPR、ECCV、InterSpeech、ACL等)以一作身份发表过多篇论文;或在开源社区、竞赛中展示出引领性的研究成果。
4. 良好的工程与实验思维:熟…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 语音多模态大模型算法创新:面向下一代语音多模态通用大模型,探索并定义统一的技术范式,开展文本、语音等多模态的联合建模与协同推理研究,系统性解决多模态对齐、跨模态推理、Agentic 能力等核心挑战,持续推动模型能力与泛化上限。
2. 场景驱动的算法创新:紧密结合真实业务场景(如智能交互、内容生成、跨模态检索等),设计并优化多模态大模型架构与训练策略,在保证效果领先的同时,持续提升模型效率、稳定性与鲁棒性,推动技术在复杂场景中的规模化落地。
3. 前沿应用技术探索:跟踪并深度参与 LLM、多模态模型、Diffusion Models、强化学习等方向的前沿研究,快速完成技术验证与实验迭代,探索新建模范式与训练范式,持续刷新相关任务的 SOTA。"
包括英文材料
学历+
大模型+
算法+
深度学习+
强化学习+
NeurIPS+
还有更多 •••
相关职位

logo of tongyi
社招3年以上技术类-开发

1、负责多模态数据数据pipeline建设、数据版本管理、数据处理、数据算子开发集成等工作。 2、开发自动化数据处理工具与脚本,优化数据清洗、标注及质量评估的效率和规模化能力。 3、参与多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 4、与算法团队紧密协作,根据模型训练需求定制数据策略,提升训练效果。 5、参与模型推理与部署、模型蒸馏、推理服务服务化,能够支持tagging及服务优化工作。

更新于 2026-01-20北京|杭州
logo of tongyi
校招通义2026届秋

近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。语音是人人交流和人机交互中最自然、最便捷的模态,对语音AI的研究和应用已经成为人工智能领域的重要组成部分。在阿里巴巴,有关技术在流媒体播放、直播互动、智能客服、会议访谈、教育教学等场景,以及作为人机交互界面在AIoT、机器人、数字人等场景有广泛应用。 我们致力于通用人工智能(AGI)方向的前沿探索与产业落地创新。如果你对生成式AI、通用人工智能(AGI/ASI)前沿探索、多模态建模与智能交互系统有浓厚兴趣,并渴望深入参与下一代多模态通用模型的研发与演进,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。 工作职责 1. 负责语音生成/语音识别/语音合成/声纹/语种/情感等方向的算法研究和开发。 2. 负责语音信号处理的相关算法研究和开发,包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等。 3. 负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发。 4. 语音统一多模态大模型:研究下一代多模态通用大模型技术范式,实现文本、语音、视觉模态的联合建模。

更新于 2025-08-07北京|杭州
logo of tongyi
社招1年以上技术类-算法

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2026-01-20北京|杭州
logo of tongyi
校招通义2026届秋

通义千问(Qwen)是由通义实验室自主研发的超大规模语言模型,具备跨语言、跨任务的理解与生成能力。Qwen系列模型,涵盖参数量从几百 M 到 T 级的基座大语言模型,并相继推出Qwen-VL、Qwen-Audio、Qwen-Omni、Qwen-Coder等系列模型。从多轮对话到代码生成,从逻辑推理到内容创作,从单一多模态到全模态统一理解生成,Qwen 正在打造全球领先的全模态模型技术体系,推动AI在企业服务、开发者生态、个人用户等领域的深度应用,引领下一代人工智能的发展。 团队致力于追逐实现 Omni 基座模型,实现多模态理解与多模态生成一体化。在此之中,语音理解与语音生成是极其重要的技术,影响着下一代 AI 的交互形式,同时通过生成语音甚至创造音乐等方式改变人类的生活与工作。团队音频组负责围绕 Qwen 基座模型展开音频处理以及与音频交互相关的基础研究及其应用,代表工作有 Qwen2.5-Omni, Qwen2-Audio, Qwen-Audio。音频组招收理解以及生成方向研究员,包括但不限于 ASR, TTS, S2TT,TTS, Zero-Shot TTS, Music/Song Generation, 同时也欢迎擅长音频交互的工程师,负责基座模型的开源与落地应用,支持开发实时交互系统。 工作职责: 1. 单人/多说话人语音识别。 2. 语音合成与高质量音频合成。 3. 音频前端与音色转换。 4. 音色克隆(Zero-Shot TTS)。 5. 音乐生成 / 歌声生成。 6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。 7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。

更新于 2025-08-07北京|杭州|上海