logo of tongyi

通义研究型实习生-音频理解大模型

实习兼职通义研究型实习生地点:杭州状态:招聘

任职要求


1. 计算机科学、电子工程、自动化等相关领域的硕士或博士研究生;
2. 具备扎实的机器学习深度学习理论基础;
3. 精通Python编程,熟悉PyTorch深度学习框架;
4. 对音频处理、自然语言处理等领域有深入了解;
5. 有较强…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与设计和实现统一的音频理解架构,解决语音识别、声学事件检测、说话人分析、情感理解等任务间的壁垒,促进多任务知识共享与协同优化;
2. 研究并开发针对长时序音频的有效上下文建模方法,提升长程语义一致性与事件定位精度;
3. 提升模型在复杂现实场景下的鲁棒性,如高噪声、低信噪比、多说话人重叠等情况;
4. 实现跨音频类型的通用语义表征,支持零样本或少样本迁移至新任务或领域;
5. 优化模型推理效率与内存占用,支持端侧部署与低延迟实时理解。
包括英文材料
机器学习+
深度学习+
Python+
PyTorch+
NLP+
还有更多 •••
相关职位

logo of tongyi
实习通义研究型实习生

以ChatGPT为开端的语义大模型的解锁,激起了大模型的热潮。而在Chat这类交互体系下,口语语言理解是其下一个重要的技术分支;例如 交互数字人 场景下,Agent如何接收并理解语音转写的用户输入,进行思考、推理并生成符合对话场景的回复用于下游语音合成模型播报。同时,国外近期推出的GPT4o、Gemini-Pro等演示中都展示端到端低时延、自然度高的多模态交互系统。 本项目主要围绕 语音语义大模型 在语音对话场景的应用展开,探索 如何达到低时延的多模态交互,包括 语音语义联合建模、端到端全双工交互、高表现力的口语对话 方向

更新于 2024-08-13杭州
logo of tongyi
实习通义研究型实习生

以OpenAI ChatGPT为代表的文本大模型激起了大模型的热潮。文本大语言模型的技术突破,也在深入的影响着音频领域的研究。如何让大语言模型不仅有“读”和“写”的能力,同时有“听“和“说”的能力,让其具备类似人类对音频信号的感知和理解能力,是一个具有重要科研价值和实际意义的研究方向。

更新于 2024-11-14北京|杭州
logo of aliyun
实习阿里云研究型实习

随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。

更新于 2025-04-07北京|杭州|上海
logo of tongyi
实习通义研究型实习生

我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1. 多模态联合建模 -研究构建音视频联合表征的编码方法。 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2. 多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 3. 技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。

更新于 2025-04-25杭州