蚂蚁金服蚂蚁集团-多模态视频理解与交互算法专家-杭州
任职要求
1、本科及以上学历,计算机相关专业,2年以上视频算法相关工作经验; 2、熟练掌握计算机视觉领域的基础理论和方法,熟悉PyTorch等主流深度学习框架,能够独立实现前沿模型; 3、有良好的自我学习能力及自驱力,对前沿领域有强探索欲,富有想象力和创造力; 4、良好的学术调研能力,良好的逻辑和数据分析能力,有高质量论文、开源项目、ACM竞赛经历、相关学术会议组织的权威比赛获奖经历或落地项目产出者优先。 加分项: 1. 在多模态/语音/语言大模型领域有科研或项目实践经验,或有大模型分布式训练经验; 2. 有计算机视觉及模式识别领域顶会(CVPR/ICCV/ECCV/ICML/NeurIPS/ICLR)或顶刊(TPAMI/IJCV)
工作职责
1、研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题; 2、打造行业领先的算法能力:如视频问答、音视频交互等; 3、探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练; 4、支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线; 5、关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。
淘天集团未来生活实验室,聚焦于AI的发展,打造支撑电商及AI Native的大模型基座能力,兼顾对1-3年内和未来生活场景相关的前沿技术的研究和关注。既要支持好各个前台场景的AI化,又肩负起探索未来技术趋势的责任。 1. 探索多模态大模型,包括多模态大模型预训练、SFT微调、及RLHF对齐等技术; 2. 探索图像和视频的统一表征方法,以及长视频的高效表征压缩技术; 3. 探索将多模态大模型用于图像理解、视频理解、视觉推理、视觉多轮交互、实时对话等任务; 4. 探索原生多模态大模型的架构与训练范式; 5. 结合淘天业务场景,推动多模态大模型在淘天搜索、推荐、广告等业务中的应用。
淘天集团未来生活实验室,聚焦于AI的发展,打造支撑电商及AI Native的大模型基座能力,兼顾对1-3年内和未来生活场景相关的前沿技术的研究和关注。既要支持好各个前台场景的AI化,又肩负起探索未来技术趋势的责任。 1. 探索多模态大模型,包括多模态大模型预训练、SFT微调、及RLHF对齐等技术; 2. 探索图像和视频的统一表征方法,以及长视频的高效表征压缩技术; 3. 探索将多模态大模型用于图像理解、视频理解、视觉推理、视觉多轮交互、实时对话等任务; 4. 探索原生多模态大模型的架构与训练范式; 5. 结合淘天业务场景,推动多模态大模型在淘天搜索、推荐、广告等业务中的应用。
岗位描述: 全面负责夸克大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。