阿里云研究型实习生-多模态模型大规模训练
任职要求
1.计算机相关专业博士或硕士,在MLSYS领域发表过相关顶会文章者优先; 2.扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计开发调试能力; 3.熟悉深度学习的基础理论概念,熟悉Transformer架构,熟悉主流大语言模型、多模态模型等模型特点; 4.熟练PyTorch等领域常用框架,掌握Megatron、DeepSpeed、JAX等不同训练框架的各自特点和细节; 5.优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心; 6.熟悉计算机体系结构基础知识,有扎实异构计算优化(GPGPU/x86/ARM等)、高性能网络架构通信优化、分布式训练策略优化等方面的经验。
工作职责
1.参与包括多模态基模型Pretrain、SFT等多个阶段的训练任务优化; 2.致力于提升不同阶段模型训练负载的极限吞吐,能够针对不同模型负载系统化的分析不同阶段耗时并提供相应的优化手段,优化手段包括但不局限于算子优化、通信优化、分布式策略优化等; 3.参与训练框架对于不同硬件的支持和优化。
当前,大规模模型正逐步向多模态方向发展。尤其是随着SORA、GPT-4o模型的问世,其热度达到了空前的水平。目前,业界已经发布了众多多模态模型,例如:CLIP、LLaVA、Qwen-VL、Qwen-VAL、DeepSeek-VL、AnyMAL、Claude3、GPT-4v、GPT-4o、Gemini1.5、Chameleon等。多模态模型的迅速发展,也带来了新的挑战,对训练框架的效率要求越来越高: 1、不同模态数据的异质性:不同模态(如图像、文本、音频、视频)有各自的编码器(encoder)和解码器(decoder),这对计算资源、显存和通信带宽的需求各不相同。训练框架需要能够适配不同模态的特点,实现高效调度和优化。 2、数据的多样性:处理的数据模态类型多样化(如纯文本、文本+图像、文本+音频、文本+视频+音频等),且模态内的数据也可能动态变化。例如,图像的数量和大小,音频的长度等都可能不同。 现有的训练框架和并行策略已经无法很好地满足当前多模态大模型的训练需求。因此,迫切需要对现有框架进行改进和优化,以支持多模态模型的高效训练。本项目将着眼于以下几个层面技术,以解决上述特性带来的挑战,提升多模态大模型训练效率: 1、多模态场景并行策略研究,以PP为例,当前的PP并行策略都是按layer粒度均分,但多模态间的异构性会给PP并行提出更高的要求,多模态场景下不同模态的计算、显存需求不同。需要打破layer级别的粒度,支持细粒度PP划分和调度,探寻更高效的PP并行策略。 2、动态长序列场景高效训练技术研究,多模态场景总序列长度会比llm场景长很多,并且不同模态的seq len长度还是动态,在动态长序列场景怎么进行高效训练。
我们正在寻找一位对大模型技术充满热情、具备扎实理论基础和良好编程能力的研究型实习生,加入我们充满活力的团队,共同探索人工智能技术的未来。你将: 1.深入研究大模型相关前沿技术: 包括但不限于大语言模型的预训练、Post-training、MOE(Mixture of Experts)、多模态大模型等,阅读最新论文,复现经典算法,探索大模型在B站各场景的应用潜力。 2.独立或协助完成大模型相关的技术探索: 参与数据收集和预处理、模型训练和评估、结果分析和报告撰写等工作,为团队的研究成果和技术影响力贡献力量。 我们提供: 1.充足的机器资源和数据支持: 为你提供高性能计算资源和海量数据,助力你在大模型领域的研究探索。 2.丰厚的实习补贴和良好的工作环境: 为你提供舒适的工作环境和具有竞争力的实习补贴。
职位描述 跟进AI Agent领域最新技术动态,围绕LLM大模型、Agent框架、LLM Reasoning技术(如思维链、多步推理)、优化复杂查询的Deep Research模式、长期记忆机制、自动化数据合成、指令微调(Instruction Tuning)、偏好对齐(RLHF/DPO)等技术,持续推动算法创新与落地。 开展LLM Agent技术研发,构建端到端Agent系统,涵盖意图识别、知识检索、结果生成与偏好对齐,推动相关技术研究与算法落地,提升用户体验。