通义研究型实习生-多模态大模型技术探索
任职要求
基本要求: 1、学历背景 -计算机科学、人工智能、信号处理、机器学习等相关专业硕士及以上学历。 -具备扎实的数学基础和编程能力,熟悉深度学习理论与实践。 2、技术能力 -熟悉多模态大模型相关的技术原理,包括但不限于文本、视觉、音频联合建模的训练范式。 -深入理解音频生成、音频表征离散化编码、音视频模态理解等领域的关键技术。 -熟练掌握主流深度学习框架(如PyTorch、TensorFlow等),并具备实际开发经验。 -有较强的算法设计与优化能力,能够针对具体任务提出创新性解决方案。 3、研究经验 -在多模态大模型领域有相关研究或项目经验,能够独立开展前沿技术探索。 -熟悉语音、音频、视觉等模态的基础理论,并能将其应用于实际问题中。 加分项: 1、科研经历 -有语音大模型或多模态大模型相关科研经历,熟悉学术前沿动态。 -以第一作者身份在A类会议(语音含INTERSPEECH、ICASSP)或顶级期刊上发表过论文者优先。 2、实习经历 -有互联网公司或相关领域的实习经历,并参与过实际项目产出,尤其是多模态技术相关的项目。 3、技术成果 -参与过开源项目或有个人技术博客,能够展示自己在多模态领域的技术积累。 -在音频生成、音视频模态理解、多模态推理等领域有过实际落地经验者优先。 4、其他能力 -熟悉分布式训练、模型压缩与加速技术,能够在资源受限环境下优化模型性能。 -对CoT(Chain-of-Thought)推理或其他复杂推理任务有深入研究或实践经验。 我们希望你: -对多模态大模型技术充满热情,愿意在这一领域深耕发展。 -善于发现问题并提出创新性解决方案,推动技术突破与产品落地。 -具备良好的职业素养,能够在快节奏的工作环境中保持高效输出。
工作职责
我们正在寻找对多模态大模型技术充满热情的研究工程师/科学家,加入我们的团队,共同探索前沿技术并推动其在实际场景中的应用。你将专注于文本、视觉、音频等多模态的联合建模与创新开发,致力于打造下一代人工智能解决方案。 核心职责: 1、多模态联合建模 -研究文本、视觉、音频的联合训练范式,在多模态融合中保持并提升文本推理能力。 -探索多模态框架下的跨模态对齐与交互机制,优化模型的表现与效率。 2、音频生成与理解 -开发高表现力情感对话生成技术,实现自然、流畅的语音合成效果。 -研究音频与音效的统一建模方法,支持多模态音频风格转换等创新任务。 -探索音频与视觉模态的深度理解,包括音频情感、背景环境信息的解析及音视频内容的联合理解。 3、音频表征学习 -研究音频表征的离散化编码方法,设计低帧率、高效率的语音与音频联合建模方案。 -探索更高效的音频特征提取与表示方式,为下游任务提供高质量输入。 4、多模态推理优化 -研究多模态大模型的深度推理能力,优化Chain-of-Thought(CoT)推理的耗时与性能。 -探索复杂推理任务的解决方案,提升模型在多模态场景下的逻辑推理与决策能力。 5、技术创新与落地 -持续跟踪学术前沿动态,结合实际需求提出创新性技术方案。 -推动研究成果的实际应用,参与从算法设计到产品落地的全流程。
项目关注多模态大模型的前沿技术问题,特别是领域应用中的泛化能力不足,模型信息融合效率低,推理能力弱等关键问题,探索具备推理能力的、多模态高效融合的领域多模态大模型,沉淀可复制的技术方法,推动其在行业和领域的落地应用。 项目包含但不限于如下关键课题: 1、多模态推理技术研究:探索多模态推理数据构建与强化学习算法,关注多模态领域模型的协同推理机制,提升领域泛化能力; 2、模型原生架构探索:探索多模态数据协同处理的通用模型结构,实现跨模态数据的高效表征学习,探索理解与生成一体化的多模态大模型技术框架,进一步提升模型对领域泛化能力。
我们正在寻找一位对大模型技术充满热情、具备扎实理论基础和良好编程能力的研究型实习生,加入我们充满活力的团队,共同探索人工智能技术的未来。你将: 1.深入研究大模型相关前沿技术: 包括但不限于大语言模型的预训练、Post-training、MOE(Mixture of Experts)、多模态大模型等,阅读最新论文,复现经典算法,探索大模型在B站各场景的应用潜力。 2.独立或协助完成大模型相关的技术探索: 参与数据收集和预处理、模型训练和评估、结果分析和报告撰写等工作,为团队的研究成果和技术影响力贡献力量。 我们提供: 1.充足的机器资源和数据支持: 为你提供高性能计算资源和海量数据,助力你在大模型领域的研究探索。 2.丰厚的实习补贴和良好的工作环境: 为你提供舒适的工作环境和具有竞争力的实习补贴。
多模态大模型技术(large multimodal models,LMM)是整个学术界和工业界的研究热点,但当前的主流技术方案在面对复杂的自然图像时,细粒度理解能力仍存在明显缺陷,大大限制了相关技术的行业落地。本项目拟研究解决多模态大模型中的视觉-文本细粒度理解及对齐问题,从而提升多模态大模型的视觉能力,推动其在各行业和专业领域的应用落地。项目包括但不限于如下待探索的细分关键研究方向:(1)细粒度图文对齐学习技术(Fine-grained image-text alignment);(2)多模态上下文学习技术(Multi-modal in-context learning);(3)多模态代理技术(Multi-modal agents)。