通义通义实验室-语音多模态大模型算法工程师-通义百聆

社招全职3年以上技术类-算法2026-03-19地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历，计算机、人工智能等相关专业，3年以上语音大模型/多模态/跨模态相关的算法经验。
2. 深入掌握深度学习、强化学习、表示学习等建模方法，在多模态建模和跨模态对齐等方面有深入研究。
3. 在国际顶级计算机会议/期刊（如NeurIPS、ICLR、ICML、CVPR、ECCV、InterSpeech、ACL等）以一作身份发表过多篇论文；或在开源社区、竞赛中展示出引领性的研究成果。
4. 良好的工程与实验思维：熟…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 语音多模态大模型算法创新：面向下一代语音多模态通用大模型，探索并定义统一的技术范式，开展文本、语音等多模态的联合建模与协同推理研究，系统性解决多模态对齐、跨模态推理、Agentic 能力等核心挑战，持续推动模型能力与泛化上限。
2. 场景驱动的算法创新：紧密结合真实业务场景（如智能交互、内容生成、跨模态检索等），设计并优化多模态大模型架构与训练策略，在保证效果领先的同时，持续提升模型效率、稳定性与鲁棒性，推动技术在复杂场景中的规模化落地。
3. 前沿应用技术探索：跟踪并深度参与 LLM、多模态模型、Diffusion Models、强化学习等方向的前沿研究，快速完成技术验证与实验迭代，探索新建模范式与训练范式，持续刷新相关任务的 SOTA。"

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

算法+

深度学习+

强化学习+

NeurIPS+

还有更多 •••

登录查看完整学习资料

相关职位

语音多模态大模型算法工程师

社招A31384

1、负责语音多模态模型算法方案研发、迭代和落地应用 2、负责大规模、多模态数据集的构建、清洗、标注和管理 3、持续跟踪国际前沿的语音、多模态及大模型技术动态

更新于 2025-11-25北京

算法工程师-语音多模态大模型

实习阿里巴巴2027

1. 负责语音生成/语音识别/语音合成/声纹/语种/情感等方向的算法研究和开发； 2. 负责语音信号处理的相关算法研究和开发，包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等； 3. 负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发； 4. 语音统一多模态大模型：研究下一代多模态通用大模型技术范式，实现文本、语音、视觉模态的联合建模。

更新于 2026-03-22北京|杭州|上海

多模态（语音大模型）算法暑期实习生

实习

1、负责语音大模型、多模态大模型算法研发与迭代，涵盖语音理解、语音生成、语音对齐、音频文本多模态融合等核心技术研发工作； 2、参与语音大模型预训练、微调、Prompt优化与模型对齐实验，针对语音降噪、语音合成、口语理解、多模态交互等场景优化模型效果； 3、调研跟进语音大模型、多模态融合领域前沿论文与业界方案，完成算法复现、实验对比、方案迭代，解决语音模型泛化差、推理精度不足等场景问题； 4、负责语音数据集清洗、构建、标注优化，完成模型训练、评测、复盘，输出实验文档与技术报告，协助推进多模态语音模型业务落地。

更新于 2026-04-27北京

多模态大模型算法实习生（语音方向）

实习核心本地商业-基

1. 优化语音合成线上效果，探索语音新范式以及语音大模型等前沿技术； 2. 研究音乐、歌唱合成以及歌唱转换等方向，给视频化提供更丰富的能力； 3. 探索全流式语音合成，以及优化音频编辑技术效果； 4. 持续优化视频配音效果，结合业务需求提供多样化强表现力的配音能力。

更新于 2025-09-08北京|上海