阿里云研究型实习生 - 智能音频多模态生成与交互系统关键技术研究及产业化应用
任职要求
1、博士/硕士研究生,计算机等相关专业优先。
2、有扎实的理论基础,对大模型相关技术研究感兴趣。
3、在相关顶会或期刊发表论文、在高水平技术评测或竞赛中获得Top成绩、在开源组织有贡献或影响力者优先。
工作职责
随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。
我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术,实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法,支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解,包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法,设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式,为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。
Top Seed人才计划-豆包大模型研究实习生专项:面向 2025 年 9 月及以后毕业的博士及本硕在读同学,加入我们,你可以自主决定研究课题,与正式员工享受同等权限和资源,和优秀的研究员一起,向智能上限发起挑战。 团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、成为研究型实习生,在你热爱的课题方向上,探索机器学习算法与系统领域最具挑战的长期关键问题; 2、寻找志同道合的伙伴,自由组建你的课题小组,享受充足的算力与数据资源支持; 3、获得长周期的培养与成长,大牛导师深度指导,国内外顶尖学者交流机会。
Top Seed人才计划-豆包大模型研究实习生专项:面向 2025 年 9 月及以后毕业的博士及本硕在读同学,加入我们,你可以自主决定研究课题,与正式员工享受同等权限和资源,和优秀的研究员一起,向智能上限发起挑战。 团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、成为研究型实习生,在你热爱的课题方向上,探索机器学习算法与系统领域最具挑战的长期关键问题; 2、寻找志同道合的伙伴,自由组建你的课题小组,享受充足的算力与数据资源支持; 3、获得长周期的培养与成长,大牛导师深度指导,国内外顶尖学者交流机会。
Top Seed人才计划-豆包大模型研究实习生专项:面向 2025 年 9 月及以后毕业的博士及本硕在读同学,加入我们,你可以自主决定研究课题,与正式员工享受同等权限和资源,和优秀的研究员一起,向智能上限发起挑战。 团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、成为研究型实习生,在你热爱的课题方向上,探索机器学习算法与系统领域最具挑战的长期关键问题; 2、寻找志同道合的伙伴,自由组建你的课题小组,享受充足的算力与数据资源支持; 3、获得长周期的培养与成长,大牛导师深度指导,国内外顶尖学者交流机会。