通义研究型实习生-多模态音频大模型生成效率优化与可控合成技术研究

实习兼职通义研究型实习生2025-04-17地点：杭州 | 上海状态：招聘

扫码手机上打开

任职要求

1、博士/硕士研究生，计算机等相关专业优先。 
2、有扎实的理论基础，对大模型相关技术研究感兴趣。 
…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

随着多模态音频大模型（如GPT-4o）的突破性发展，语音交互与音视频生成技术已成为AI领域的前沿阵地。当前技术面临实时性-生成质量权衡（如思维链机制引入导致推理时延显著增加）及可控性-鲁棒性不足（如时序同步性差、跨模态数据依赖性强）的双重挑战。本项目聚焦音频对话生成效率优化与多模态可控合成技术，重点攻克Test-Time-Scaling曲线建模（动态CoT启动、关键词压缩、隐状态连续表征）、扩散-语言模型融合架构设计、音视频统一生成等核心问题，旨在突破长序列推理效率瓶颈并增强跨模态对齐能力，推动智能语音助手、沉浸式媒体交互等场景的高效可控生成。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

相关职位

研究型实习生 - 智能音频多模态生成与交互系统关键技术研究及产业化应用

实习阿里云研究型实习

随着GPT-4o等全模态大模型的突破，多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。本项目聚焦音频、视觉、文本的多模态融合场景，针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关，旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统，推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。

更新于 2025-04-07北京|杭州|上海

研究型实习生-多模态内生安全对齐

实习研究型实习生

研究领域：人工智能项目简介：内生安全是近年来大语言模型研发中的一个关键研究方向。随着模型能力的快速增长，特别是推理模型，通过慢思考LongCoT的方式极大的提升了能力达到专家水平，然而强大能力也带来了潜在的安全风险。内生安全的目标是通过设计模型架构、推理机制或训练流程，使得模型在底层逻辑中具备一致性、自我审查和误差控制的能力，从本质上降低安全隐患，而不是简单依赖筛查和围栏过滤。对于推理模型的内生安全而言，其主要难点在于 1. 可解释性不足，缺乏启发式策略和理论的结合。没有对推理模型有专门的内生安全性质的定义，形成数学的框架 2. 对抗能力缺失。由于模型较新且运行成本大，目前已有的jailbreak方法依赖大量试错的尝试，很难形成有效的攻防相互促进 3. 动态推理过程的监督。由于推理模型将思考过程进行展示，以往工作只关注在最后模型回复阶段，忽略了推理过程可能包含的风险因此，可以再一下方向进行相关研究 1. 安全高效评估框架：针对推理模型研发专门的red team方法进行内生安全评估 2. 对抗训练：提出高效的对抗方法，通过posttrain方式提升内生安全 3. 内生安全奖励：在GRPO过程中，除了回复的helpful，也考虑harmless 4. 多模态场景下的推理安全：对图文视频音频等多模态输入，均在思考过程中进行安全检查等

上海|杭州

研究型实习生-原生多模态大模型

实习研究型实习生

研究领域：人工智能项目简介：原生多模态模型在设计时原生支持多模态，通过在音频、视频、图片、文本等多模态序列上进行预训练，可以理解、生成或操作不同模态组合，原生多模态也被认为是继NLP大模型后实现AGI的必经之路。本课题主要研究原生多模态的核心问题, 包括但不限于: 1. 研究多个模态进行混合训练并实现各模态各任务均衡的方法 2. 研究理解和生成任务的统一框架，实现理解和生成任务的相互促进 3. 提升多模态in-context能力机制及提升多模态in-context learning能力

北京|上海|杭州

多模态实时交互电商数字人

实习淘天集团研究型实

欢迎加入阿里巴巴数字人团队！如果你对以下领域感兴趣，并希望在实际项目中积累经验，欢迎加入我们！你将参与的工作：个性化数字人形象生成系统在海量用户数据和先进技术支持下，协助开发能够生成千人千面个性化虚拟形象的系统。学习并应用基础的图像处理和生成模型，帮助提升系统的定制化能力。高表现力肢体表情驱动技术研发参与研发基于动作捕捉、表情合成和实时渲染技术的数字人表情和肢体动作驱动系统。协助优化现有技术，使数字人的表情和动作更加自然流畅，增强情感表达能力。核心技术难题攻克在导师指导下，学习和探索基于扩散模型的高质量数字人生成技术。多模态统一大模型的应用了解并参与多模态信息融合的研究，结合图像、文本、音频等多种信息，构建具备理解能力和生成能力的数字人系统。协助解决业界尚未突破的技术瓶颈，推动技术创新。相关研究课题细分方向：数字人形象定制与风格化迁移协助开发和优化数字人形象定制生成能力，适配不同的实时互动场景。学习并应用基本的图像处理和生成算法，提升系统的灵活性和适应性。数字人表情与肢体动作驱动在导师指导下，参与数字人表情和肢体动作驱动技术的研发。协助测试和优化现有系统，使其表现力更接近真人水平。数字人多模态理解感知能力参与构建数字人与用户的实时交互系统，提升其理解和响应能力。协助进行多模态信息融合实验，增强数字人的个性化服务能力。我们期待你是：计算机科学、软件工程、人工智能等相关专业的在校学生（本科或研究生）。对数字人技术有浓厚兴趣，愿意在实践中学习和成长。具备一定的编程基础（如Python、C++），熟悉常用的数据处理和机器学习框架（如PyTorch、TensorFlow）者优先。良好的团队合作精神和沟通能力。加入我们，你将获得：丰富的实战经验和前沿技术的学习机会。导师一对一指导，助力你的职业发展。参与影响亿级用户的大规模项目，感受技术带来的巨大价值。开放包容的工作环境和充满活力的团队氛围。让我们一起定义未来数字人的无限可能，期待你的加入！

更新于 2025-10-17北京|杭州