通义研究型实习生-音频理解大模型

实习兼职通义研究型实习生2025-11-21地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、电子工程、自动化等相关领域的硕士或博士研究生；
2. 具备扎实的机器学习、深度学习理论基础；
3. 精通Python编程，熟悉PyTorch等深度学习框架；
4. 对音频处理、自然语言处理等领域有深入了解；
5. 有较强…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 参与设计和实现统一的音频理解架构，解决语音识别、声学事件检测、说话人分析、情感理解等任务间的壁垒，促进多任务知识共享与协同优化；
2. 研究并开发针对长时序音频的有效上下文建模方法，提升长程语义一致性与事件定位精度；
3. 提升模型在复杂现实场景下的鲁棒性，如高噪声、低信噪比、多说话人重叠等情况；
4. 实现跨音频类型的通用语义表征，支持零样本或少样本迁移至新任务或领域；
5. 优化模型推理效率与内存占用，支持端侧部署与低延迟实时理解。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

Python+

PyTorch+

NLP+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-面向通用场景的智能交互语音理解大模型与鲁棒语音识别技术

实习通义研究型实习生

1.负责语音识别/语种识别/情感识别等方向的算法研究和开发； 2.负责音频理解/用户意图理解等算法研究和开发； 3.语音统一多模态大模型：研究下一代多模态通用大模型技术范式，实现文本、语音、视觉模态的联合建模。

更新于 2026-05-20北京|杭州

研究型实习生 - 统一理解生成音频大模型

实习通义研究型实习生

1. 参与设计和实现融合音频理解与生成能力的统一架构，打破传统模型在“理解”与“生成”之间的壁垒； 2. 研究并开发针对长时序音频的高效建模方法，解决上下文保持难题，提升长程语义一致性和事件定位精度； 3. 提升模型在高噪声、低资源、多说话人等复杂环境下的鲁棒性，同时保证生成内容的自然度； 4. 实现跨音频类型的通用表征学习，支持零样本或少样本迁移至新任务或领域； 5. 优化模型推理效率，支持端侧部署与实时交互，满足边缘设备及移动端应用需求。

更新于 2025-12-10北京|杭州

研究型实习生 - 智能音频多模态生成与交互系统关键技术研究及产业化应用

实习阿里云研究型实习

随着GPT-4o等全模态大模型的突破，多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。本项目聚焦音频、视觉、文本的多模态融合场景，针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关，旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统，推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。

更新于 2025-04-07北京|杭州|上海

研究型实习生-低成本人物全模态推理

实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家，加入我们的团队，共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发，致力于打造下一代人工智能解决方案。核心职责： 1. 多模态联合建模 -研究构建音视频联合表征的编码方法。 -研究文本、视觉、音频的联合训练范式，在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制，优化模型的表现与效率。 2. 多模态推理优化 -研究多模态大模型的深度推理能力，优化Chain-of-Thought（CoT）推理的耗时与性能。 -探索复杂推理任务的解决方案，提升模型在多模态场景下的逻辑推理与决策能力。 3. 技术创新与落地 -持续跟踪学术前沿动态，结合实际需求提出创新性技术方案。 -推动研究成果的实际应用，参与从算法设计到产品落地的全流程。

更新于 2026-05-20杭州