阿里云研究型实习生 - 多模态大模型高效训练技术研究
任职要求
1、计算机及相关专业的博士或硕士研究生,且对机器学习系统有充分的兴趣;有机器学习系统及分布式系统相关研究和开发经验,最好熟悉多模…
工作职责
当前,大规模模型正逐步向多模态方向发展。尤其是随着SORA、GPT-4o模型的问世,其热度达到了空前的水平。目前,业界已经发布了众多多模态模型,例如:CLIP、LLaVA、Qwen-VL、Qwen-VAL、DeepSeek-VL、AnyMAL、Claude3、GPT-4v、GPT-4o、Gemini1.5、Chameleon等。多模态模型的迅速发展,也带来了新的挑战,对训练框架的效率要求越来越高: 1、不同模态数据的异质性:不同模态(如图像、文本、音频、视频)有各自的编码器(encoder)和解码器(decoder),这对计算资源、显存和通信带宽的需求各不相同。训练框架需要能够适配不同模态的特点,实现高效调度和优化。 2、数据的多样性:处理的数据模态类型多样化(如纯文本、文本+图像、文本+音频、文本+视频+音频等),且模态内的数据也可能动态变化。例如,图像的数量和大小,音频的长度等都可能不同。 现有的训练框架和并行策略已经无法很好地满足当前多模态大模型的训练需求。因此,迫切需要对现有框架进行改进和优化,以支持多模态模型的高效训练。本项目将着眼于以下几个层面技术,以解决上述特性带来的挑战,提升多模态大模型训练效率: 1、多模态场景并行策略研究,以PP为例,当前的PP并行策略都是按layer粒度均分,但多模态间的异构性会给PP并行提出更高的要求,多模态场景下不同模态的计算、显存需求不同。需要打破layer级别的粒度,支持细粒度PP划分和调度,探寻更高效的PP并行策略。 2、动态长序列场景高效训练技术研究,多模态场景总序列长度会比llm场景长很多,并且不同模态的seq len长度还是动态,在动态长序列场景怎么进行高效训练。
1. 探索多模态大模型的高效训练,包括预训练、SFT、及RLHF等技术; 2. 探索高效的视觉编码器结构、对齐范式、训练策略、数据清洗、质量分级、数据合成等; 3. 探索原生多模态大模型的架构与训练范式; 4. 探索图像、视频、音频的全模态大模型; 5. 结合淘天业务,推动多模态大模型在搜索、推荐、广告等业务中的应用。
1. 重点研究生成大模型的训练和推理效率问题。 2. 研究各种蒸馏加速算法,包括CFG蒸馏,推理步数蒸馏等。 3. 研究各种Training-free推理加速算法,不限于cache、量化、采样优化等策略。 4. 研究生成模型的高效训练架构,包括但不限于sparse/linear attention、时空独立建模、超分模块等策略。
【课题说明】 外卖业务在国际市场上展现出前所未有的增长潜力,全球化运营对智能化提出更高要求。本课题致力于运用大模型技术,结合后训练、多模态、强化学习等手段,打造覆盖智能客服、智能审核、智能外呼的下一代全球服务系统,核心在于高效完成跨文化背景下的复杂任务。 【建议研究方向】 1.任务型对话的强化学习与后训练:研究如何结合强化学习激励与高效后训练方法,使大模型能精准理解并高效完成全球用户、商家及骑手提出的多模态复杂服务任务。 2.少样本多模态理解与推理:探索在数据相对稀疏的海外市场中,如何构建强大的多模态大模型,以支持对用户、骑手、商家上传图文的高效合规审核与风险识别。 3.外呼场景下的可控对话:研究通过可控生成技术并有效融入领域知识,提升大模型在招聘、商家/骑手沟通等多语言智能外呼任务中对话的自然度、信息准确性与目标达成率。
职位描述: 1、参与Agent系统的原型构建与落地,探索提升Agent自主理解、规划与执行任务能力的新思路与方法; 2、优化Agent的对话交互机制,尝试新颖的交互方式,以提升用户体验和任务完成的流畅性与智能性; 3、研究并实验Agent的知识整合与上下文记忆管理方案,探索更高效、智能的信息组织与检索技术,支持Agent进行更深层次的思考; 4、探索Agent与系统工具、API的智能协同策略,参与设计和验证更鲁棒、灵活的工具调用与任务规划流程,鼓励提出创新交互方案; 5、针对特定复杂场景,调研并实践Agent解决用户实际问题的创新路径,挑战并拓展Agent的能力边界。