logo of antgroup

蚂蚁金服【蚂蚁星-Plan A】多模态大模型研发-多模态感知与交互

校招全职2026届蚂蚁星- Plan A人才计划地点:北京 | 上海 | 杭州状态:招聘

任职要求


1. 本科及以上学历,计算机相关专业,多模态算法相关工作经验;
2. 熟练掌握计算机视觉领域的基础理论和方法,熟悉PyTorch等主流深度学习框架,能够独立实现前沿模型;
3. 有良好的自我学习能力及自驱力,对前沿领域有强探索欲,富有想象力和创造力;
4. 良好的学术调研能力,良好的逻辑和数据分析能力,有高质量论文…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


多模态交互团队是蚂蚁基础智能部门专注于最前沿多模态交互大模型研究的团队
1. 研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题;
2. 打造行业领先的算法能力:如视频问答、音视频交互等;
3. 探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练;
4. 支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线;
5. 关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。
包括英文材料
学历+
算法+
OpenCV+
PyTorch+
深度学习+
数据分析+
大模型+
还有更多 •••
相关职位

logo of antgroup
校招蚂蚁星计划 -

多模态交互团队是蚂蚁基础智能部门专注于最前沿多模态交互大模型研究的团队 1. 研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题; 2. 打造行业领先的算法能力:如视频问答、音视频交互等; 3. 探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练; 4. 支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线; 5. 关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。

北京|上海|杭州
logo of antgroup
校招蚂蚁星计划 -

蚂蚁集团 - 基础智能团队 我们团队主要负责蚂蚁集团的通用大模型研发工作。我们提供国内顶尖的算力资源,致力于建设基于大模型的AGI技术。我们期待同样以实现AGI为目标的您的加入,共同推动人工智能技术的发展。目前,我们正在进行: 多模态大模型研发: 研发高效的多模态预训练模型架构。探索和实现多模态融合技术,优化多模态模型的训练策略和推理效率。 1. 参与原生多模态大模型研发,包括MoE多模态架构、多模态强化学习框架、多模态长思维链推理能力优化、高质量数据合成、体验优化等; 2. 负责原生多模态大模型高效率预训练,以及后训练探索,支撑多模态输入/输出、复杂任务均衡优化。

北京|上海|杭州
logo of antgroup
校招蚂蚁星计划 -

蚂蚁集团 - 基础智能团队 我们团队主要负责蚂蚁集团的通用大模型研发工作。我们提供国内顶尖的算力资源,致力于建设基于大模型的AGI技术。我们期待同样以实现AGI为目标的您的加入,共同推动人工智能技术的发展。目前,我们正在进行: 多模态大模型研发: 研发高效的多模态预训练模型架构。探索和实现多模态融合技术,优化多模态模型的训练策略和推理效率。 1. ​​统一架构研发​​ 研发多模态理解与生成一体化架构,设计统一表征模型(文本/图像/视频/语音),攻克跨模态语义对齐、动态路由、混合模态生成等关键技术 主导千亿级参数多模态模型的分布式训练优化(数据并行+流水线并行+专家混合),实现训练成本降低与性能提升 ​​2. 端到端系统构建​​ 构建支持多模态输入输出的实时交互系统(端到端延迟<200ms),优化推理引擎(KV Cache量化、动态批处理、显存卸载) 开发多模态自监督学习框架,实现跨模态数据自动挖掘与合成(如视频-文本弱监督对齐) ​​3. 技术前瞻研究​​ 探索多模态大模型技术边界,包括但不限于:理解与生成统一、跨模态融合、多模态世界模型构建 参与制定行业技术标准,主导国际顶会论文发表(CVPR/ICML/NeurIPS)及开源项目贡献

北京|上海|杭州
logo of antgroup
校招2026届蚂蚁星

蚂蚁集团 - 基础智能团队 我们团队主要负责蚂蚁集团的通用大模型研发工作。我们提供国内顶尖的算力资源,致力于建设基于大模型的AGI技术。我们期待同样以实现AGI为目标的您的加入,共同推动人工智能技术的发展。目前,我们正在进行: 多模态大模型研发: 研发高效的多模态预训练模型架构。探索和实现多模态融合技术,优化多模态模型的训练策略和推理效率。 1. ​​统一架构研发​​ 研发多模态理解与生成一体化架构,设计统一表征模型(文本/图像/视频/语音),攻克跨模态语义对齐、动态路由、混合模态生成等关键技术 主导千亿级参数多模态模型的分布式训练优化(数据并行+流水线并行+专家混合),实现训练成本降低与性能提升 ​​2. 端到端系统构建​​ 构建支持多模态输入输出的实时交互系统(端到端延迟<200ms),优化推理引擎(KV Cache量化、动态批处理、显存卸载) 开发多模态自监督学习框架,实现跨模态数据自动挖掘与合成(如视频-文本弱监督对齐) ​​3. 技术前瞻研究​​ 探索多模态大模型技术边界,包括但不限于:理解与生成统一、跨模态融合、多模态世界模型构建 参与制定行业技术标准,主导国际顶会论文发表(CVPR/ICML/NeurIPS)及开源项目贡献

北京|上海|杭州