通义通义实验室 - 通义多模态通用大模型算法 - 阿里星
任职要求
1. 来自全球Top高校计算机科学、人工智能、数学、物理或相关领域应届博士/顶尖硕士毕业生。 2. 深入掌握深度学习、强化学习、表示学习等建模方法;在多模态建模和跨模态对齐等方面有深入研究。 3. 在国际顶级计算机会议/期刊(如NeurIPS、ICLR、TPAMI、CVPR、ECCV、InterSpeech、ACL等)以一作身份发表过多篇论文,或在开源社区、竞赛中展示出引领性的研究成果。 4. 良好的工程与实验思维:熟悉PyTorch/TensorFlow等主流框架,具备大规模语言/视觉模型调优经验,能高效实现定制化训练流程;重视代码质量与实验结果,追求“不仅work,而且高效优雅”。 5. 技术热情与好奇心:有志于将AI从实验室推向真实业务场景,构建“可解释、可控制、可落地”的行业智能系统,善于从复杂的行业需求中提炼出核心AI建模问题,并设计创新性的解决方案。 6. 善于跨团队协作:能与产品、基础研究团队高效沟通,平衡技术理想与落地实现。
工作职责
近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。 我们致力于通用人工智能(AGI)方向的前沿探索与产业落地创新。一方面,在迈向AGI的长期路径中,随着大语言模型能力的持续进化,多模态感知、融合与推理等关键问题日益凸显,成为构建通用智能系统的核心挑战;另一方面,围绕典型行业场景(如智能交互、高质量内容生成、跨模态检索与理解等),如何将现有大模型能力有效转化为可落地、可扩展、可持续的解决方案,也成为当前研究与工程实践的重点方向。 如果你对生成式AI、通用人工智能(AGI/ASI)前沿探索、多模态建模与智能交互系统有浓厚兴趣,并渴望深入参与下一代多模态通用模型的研发与演进,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。 1. 多模态大模型算法创新:定义下一代多模态通用大模型技术范式,实现文本、语音、视觉模态的联合建模,探寻和解决多模态对齐、推理、Agentic等方面的核心挑战,不断追寻多模态通用大模型的效果上限。 2. 场景驱动的算法创新:结合业务场景(如智能交互、内容生成、跨模态检索等),设计并优化大模型架构,提升效果、效率与鲁棒性。 3. 端到端技术闭环:从数据构建、模型训练、评测到部署,主导技术方案落地,通过AB实验、调用量、用户反馈验证价值。 4. 前沿应用技术探索:紧跟并能驱动LLM、Diffusion Models、强化学习等技术相关进展,定义技术新范式,快速实验并迭代创新方案,拉升相关模型SOTA。
随着大模型技术的飞速发展,理解和生成多模态数据(图像、视频、音频、3D素材等)的能力日益增强。目前,构建能够同时进行输入和输出的多模态世界模型已成为业界的研究热点,也是实现通用人工智能(AGI)的重要技术路径之一。 通义万相(Wan)将持续在世界模型、原生多模态预训练、理解-生成融合范式、统一Tokenizer研究、人类反馈与强化学习等前沿技术方向上进行探索,始终追求在多模态世界模型领域的领先研究地位,致力于建立世界级的技术影响力。 多模态世界模型前沿技术研究项目,团队在多个方向上进行探索(具体如下罗列),若你对以下一个或者多个课题感兴趣均欢迎投递: 1. 世界模型,包括但不限于:长视频生成、多模态交互式世界模型、实时音视频生成、生成驱动的世界渲染引擎、3D/4D生成。 2. 原生多模态预训练,包括但不限于:融合语言与图像理解生成统一的多模态模型、音视频融合的生成模型、高效多模态预训练算法。 3. 人类反馈与强化学习,包括但不限于:基于规则的强化学习策略、高效 DPO 与 PPO 算法设计、基于用户反馈的RLHF视频生成质量提升。 4. 统一Tokenizer研究,包括但不限于:适用于图像、视频、音频等多种模态生成和理解的统一Tokenizer、提高多模态模型的泛化能力和效率。 5. 大模型训练/推理优化,包括但不限于:模型蒸馏、模型剪枝、attention计算近似等高效训练加速策略。
近年来,以大模型为核心的生成式人工智能技术在语言理解、内容生成、多模态建模与跨模态交互等领域取得了突破性进展,展现出前所未有的技术潜力与广泛的应用前景。语音是人人交流和人机交互中最自然、最便捷的模态,对语音AI的研究和应用已经成为人工智能领域的重要组成部分。在阿里巴巴,有关技术在流媒体播放、直播互动、智能客服、会议访谈、教育教学等场景,以及作为人机交互界面在AIoT、机器人、数字人等场景有广泛应用。 我们致力于通用人工智能(AGI)方向的前沿探索与产业落地创新。如果你对生成式AI、通用人工智能(AGI/ASI)前沿探索、多模态建模与智能交互系统有浓厚兴趣,并渴望深入参与下一代多模态通用模型的研发与演进,欢迎加入我们,共同定义未来AI的能力边界,牵引千行百业在智能时代的深度变革。 工作职责 1. 负责语音生成/语音识别/语音合成/声纹/语种/情感等方向的算法研究和开发。 2. 负责语音信号处理的相关算法研究和开发,包括语音增强、回声消除、混响消除、自动增益控制、波达方向估计、波束形成等。 3. 负责口语语言理解/用户意图理解/对话模型/语音交互等算法研究和开发。 4. 语音统一多模态大模型:研究下一代多模态通用大模型技术范式,实现文本、语音、视觉模态的联合建模。
各类大模型算法岗位:包括不限于 ✓大模型应用(Rag、Agent的研究等) ✓大模型技术研究 (指令微调、强化学习、推理等) ✓多模态理解与生成研究(文本、图像、视频、音频等)
团队介绍: 通义实验室语音工程团队主要负责通义系列模型在语音及其他更广泛的多模态交互、理解场景下的落地和应用。我们在阿里云上提供业界领先、开箱即用的模型服务API,支持全世界的开发者,以及阿里集团内如钉钉、淘天、夸克等30+业务线。我们同时也在和算法科学家们一道探索最前沿模型的能力边界,构建以多模态大模型为核心的新产品,向外展示通义的技术先进性和影响力。 职位描述: 1. 探索应用多模态理解与生成大模型,并进行极致端到端系统优化。 2. 建设超低延迟、高可用、可扩展的分布式模型服务系统,支持业务算法生产和高效迭代。 3. 探索构建多模态交互的通用多模态Agent、应用,推动多模态模型的落地和应用,研发以AI技术为核心的新技术、新产品。 4. 分析和解决复杂的软硬件技术问题,提供可靠的技术解决方案。 跟踪行业最新的多模态大模型和应用开发工具和技术,将最佳实践和创新集成到平台中。 5. 撰写技术文档,包括设计规范、操作手册和最佳实践指南。