通义研究型实习生 - 统一理解生成音频大模型

实习兼职通义研究型实习生2025-12-10地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1. 计算机科学、电子工程、自动化等相关领域的硕士或博士研究生；
2. 扎实的机器学习和深度学习理论基础；
3. 精通Python编程，熟悉PyTorc…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 参与设计和实现融合音频理解与生成能力的统一架构，打破传统模型在“理解”与“生成”之间的壁垒；
2. 研究并开发针对长时序音频的高效建模方法，解决上下文保持难题，提升长程语义一致性和事件定位精度；
3. 提升模型在高噪声、低资源、多说话人等复杂环境下的鲁棒性，同时保证生成内容的自然度；
4. 实现跨音频类型的通用表征学习，支持零样本或少样本迁移至新任务或领域；
5. 优化模型推理效率，支持端侧部署与实时交互，满足边缘设备及移动端应用需求。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-原生多模态大模型

实习研究型实习生

研究领域：人工智能项目简介：原生多模态模型在设计时原生支持多模态，通过在音频、视频、图片、文本等多模态序列上进行预训练，可以理解、生成或操作不同模态组合，原生多模态也被认为是继NLP大模型后实现AGI的必经之路。本课题主要研究原生多模态的核心问题, 包括但不限于: 1. 研究多个模态进行混合训练并实现各模态各任务均衡的方法 2. 研究理解和生成任务的统一框架，实现理解和生成任务的相互促进 3. 提升多模态in-context能力机制及提升多模态in-context learning能力

北京|上海|杭州

多模态实时交互电商数字人

实习淘天集团研究型实

欢迎加入阿里巴巴数字人团队！如果你对以下领域感兴趣，并希望在实际项目中积累经验，欢迎加入我们！你将参与的工作：个性化数字人形象生成系统在海量用户数据和先进技术支持下，协助开发能够生成千人千面个性化虚拟形象的系统。学习并应用基础的图像处理和生成模型，帮助提升系统的定制化能力。高表现力肢体表情驱动技术研发参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。协助优化现有技术，使数字人的表情和动作更加自然流畅，增强情感表达能力。核心技术难题攻克在导师指导下，学习和探索基于扩散模型的高质量数字人生成技术。多模态统一大模型的应用了解并参与多模态信息融合的研究，结合图像、文本、音频等多种信息，构建具备理解能力和生成能力的数字人系统。协助解决业界尚未突破的技术瓶颈，推动技术创新。相关研究课题细分方向：数字人形象定制与风格化迁移协助开发和优化数字人形象定制生成能力，适配不同的实时互动场景。学习并应用基本的图像处理和生成算法，提升系统的灵活性和适应性。数字人表情与肢体动作驱动在导师指导下，参与数字人表情和肢体动作驱动技术的研发。协助测试和优化现有系统，使其表现力更接近真人水平。数字人多模态理解感知能力参与构建数字人与用户的实时交互系统，提升其理解和响应能力。协助进行多模态信息融合实验，增强数字人的个性化服务能力。我们期待你是：计算机科学、软件工程、人工智能等相关专业的在校学生（本科或研究生）。对数字人技术有浓厚兴趣，愿意在实践中学习和成长。具备一定的编程基础（如Python、C++），熟悉常用的数据处理和机器学习框架（如PyTorch、TensorFlow）者优先。良好的团队合作精神和沟通能力。加入我们，你将获得：丰富的实战经验和前沿技术的学习机会。导师一对一指导，助力你的职业发展。参与影响亿级用户的大规模项目，感受技术带来的巨大价值。开放包容的工作环境和充满活力的团队氛围。让我们一起定义未来数字人的无限可能，期待你的加入！

更新于 2025-10-17北京|杭州

研究型实习生-多模态理解和生成统一模型(图像+视频+音频方向)

实习通义研究型实习生

1、理解-生成融合范式：研究理解模型和生成模型的有效融合范式，例如探索Diffusion-Transformer (DiT) 和 Auto-Regressive (AR) 模型的融合与交互方式。 2、融合音频数据的统一模型：将音频数据融入现有的多模态理解和生成框架，构建更全面的多模态统一模型。 3、统一Tokenizer研究：探索适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer，提高模型的泛化能力和效率。

更新于 2025-06-12北京|杭州

研究型实习生-多模态大模型技术探索

实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家，加入我们的团队，共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发，致力于打造下一代人工智能解决方案。核心职责： 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式，在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制，优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术，实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法，支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解，包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法，设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式，为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力，优化Chain-of-Thought（CoT）推理的耗时与性能。 -探索复杂推理任务的解决方案，提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态，结合实际需求提出创新性技术方案。 -推动研究成果的实际应用，参与从算法设计到产品落地的全流程。

更新于 2025-04-23北京|杭州