通义研究型实习生-音频理解大模型
任职要求
1. 计算机科学、电子工程、自动化等相关领域的硕士或博士研究生; 2. 具备扎实的机器学习、深度学习理论基础; 3. 精通Python编程,熟悉PyTorch等深度学习框架; 4. 对音频处理、自然语言处理等领域有深入了解; 5. 有较强…
工作职责
1. 参与设计和实现统一的音频理解架构,解决语音识别、声学事件检测、说话人分析、情感理解等任务间的壁垒,促进多任务知识共享与协同优化; 2. 研究并开发针对长时序音频的有效上下文建模方法,提升长程语义一致性与事件定位精度; 3. 提升模型在复杂现实场景下的鲁棒性,如高噪声、低信噪比、多说话人重叠等情况; 4. 实现跨音频类型的通用语义表征,支持零样本或少样本迁移至新任务或领域; 5. 优化模型推理效率与内存占用,支持端侧部署与低延迟实时理解。
1.负责语音识别/语种识别/情感识别等方向的算法研究和开发; 2.负责音频理解/用户意图理解等算法研究和开发; 3.语音统一多模态大模型:研究下一代多模态通用大模型技术范式,实现文本、语音、视觉模态的联合建模。
1. 参与设计和实现融合音频理解与生成能力的统一架构,打破传统模型在“理解”与“生成”之间的壁垒; 2. 研究并开发针对长时序音频的高效建模方法,解决上下文保持难题,提升长程语义一致性和事件定位精度; 3. 提升模型在高噪声、低资源、多说话人等复杂环境下的鲁棒性,同时保证生成内容的自然度; 4. 实现跨音频类型的通用表征学习,支持零样本或少样本迁移至新任务或领域; 5. 优化模型推理效率,支持端侧部署与实时交互,满足边缘设备及移动端应用需求。
随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。
我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1. 多模态联合建模 -研究构建音视频联合表征的编码方法。 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2. 多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 3. 技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。