蚂蚁金服【蚂蚁星】多模态大模型研发-多模态推理
任职要求
1. 硕士及以上学历,计算机科学或相关专业背景; 2. 有多模态大模型相关的研究经历,在post-training方向具备一定的训练经验,熟悉奖励模型建模,DPO/PPO/GRPO等主流强化学习算法; 3. 具备扎实的算法工程实现…
工作职责
蚂蚁集团 - 基础智能团队 我们团队主要负责蚂蚁集团的通用大模型研发工作。我们提供国内顶尖的算力资源,致力于建设基于大模型的AGI技术。我们期待同样以实现AGI为目标的您的加入,共同推动人工智能技术的发展。目前,我们正在进行: 多模态大模型研发: 研发高效的多模态预训练模型架构。探索和实现多模态融合技术,优化多模态模型的训练策略和推理效率。 1. 负责研发多模态大模型强化学习算法,提升百灵大模型在GUI场景的细粒度感知,以及规划、反思和决策的推理能力; 2. 负责研发奖励和评价模型,包括对GUI操控图片序列的过程监督和奖励建模,覆盖复杂推理、指令遵循等各种任务。
多模态交互团队是蚂蚁基础智能部门专注于最前沿多模态交互大模型研究的团队 1. 研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题; 2. 打造行业领先的算法能力:如视频问答、音视频交互等; 3. 探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练; 4. 支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线; 5. 关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。
多模态交互团队是蚂蚁基础智能部门专注于最前沿多模态交互大模型研究的团队 1. 研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题; 2. 打造行业领先的算法能力:如视频问答、音视频交互等; 3. 探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练; 4. 支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线; 5. 关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。
多模态交互团队是蚂蚁基础智能部门专注于最前沿多模态交互大模型研究的团队 1. 研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题; 2. 打造行业领先的算法能力:如视频问答、音视频交互等; 3. 探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练; 4. 支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线; 5. 关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。
蚂蚁集团 - 基础智能团队 我们团队主要负责蚂蚁集团的通用大模型研发工作。我们提供国内顶尖的算力资源,致力于建设基于大模型的AGI技术。我们期待同样以实现AGI为目标的您的加入,共同推动人工智能技术的发展。目前,我们正在进行: 多模态大模型研发: 研发高效的多模态预训练模型架构。探索和实现多模态融合技术,优化多模态模型的训练策略和推理效率。 1. 参与原生多模态大模型研发,包括MoE多模态架构、多模态强化学习框架、多模态长思维链推理能力优化、高质量数据合成、体验优化等; 2. 负责原生多模态大模型高效率预训练,以及后训练探索,支撑多模态输入/输出、复杂任务均衡优化。