logo of antgroup

蚂蚁金服蚂蚁集团-多模态视频理解与交互算法专家-杭州

社招全职2年以上技术类-算法地点:杭州状态:招聘

任职要求


1、本科及以上学历,计算机相关专业,2年以上视频算法相关工作经验;  
2、熟练掌握计算机视觉领域的基础理论和方法,熟悉PyTorch等主流深度学习框架,能够独立实现前沿模型;
3、有良好的自我学习能力及自驱力,对前沿领域有强探索欲,富有想象力和创造力;
4、良好的学术调研能力,良好的逻辑和数据分析能力,有高质量论文…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、研究多模态模型预训练新范式,突破多模态对齐、跨模态推理、多模态数据挖掘和合成、效果评测等关键技术难题;
2、打造行业领先的算法能力:如视频问答、音视频交互等;
3、探索视觉理解大模型与音视频交互大模型技术的深度融合路径,构建支持图像、视频、语音多模态理解的通用大模型架构和大规模训练;
4、支持音视频交互推理加速框架建设,构建完善的音视频交互大模型数据链路,探索和细化不同的音视频交互模型的评估维度、方法和指标,落地评估系统,支撑基础大模型迭代和上线;
5、关注多模态/NLP/语音等方向的前沿技术,及时将新技术应用到产品中。
包括英文材料
学历+
算法+
OpenCV+
PyTorch+
深度学习+
数据分析+
大模型+
模式识别+
还有更多 •••
相关职位

logo of alibaba
社招2年以上

淘天集团未来生活实验室,聚焦于AI的发展,打造支撑电商及AI Native的大模型基座能力,兼顾对1-3年内和未来生活场景相关的前沿技术的研究和关注。既要支持好各个前台场景的AI化,又肩负起探索未来技术趋势的责任。 1. 探索多模态大模型,包括多模态大模型预训练、SFT微调、及RLHF对齐等技术; 2. 探索图像和视频的统一表征方法,以及长视频的高效表征压缩技术; 3. 探索将多模态大模型用于图像理解、视频理解、视觉推理、视觉多轮交互、实时对话等任务; 4. 探索原生多模态大模型的架构与训练范式; 5. 结合淘天业务场景,推动多模态大模型在淘天搜索、推荐、广告等业务中的应用。

更新于 2025-06-10北京|杭州
logo of alibaba
社招2年以上

淘天集团未来生活实验室,聚焦于AI的发展,打造支撑电商及AI Native的大模型基座能力,兼顾对1-3年内和未来生活场景相关的前沿技术的研究和关注。既要支持好各个前台场景的AI化,又肩负起探索未来技术趋势的责任。 1. 探索多模态大模型,包括多模态大模型预训练、SFT微调、及RLHF对齐等技术; 2. 探索图像和视频的统一表征方法,以及长视频的高效表征压缩技术; 3. 探索将多模态大模型用于图像理解、视频理解、视觉推理、视觉多轮交互、实时对话等任务; 4. 探索原生多模态大模型的架构与训练范式; 5. 结合淘天业务场景,推动多模态大模型在淘天搜索、推荐、广告等业务中的应用。

更新于 2025-07-30北京|杭州
logo of quark
社招3年以上技术类-算法

岗位描述: 全面负责夸克大模型在 Post-Training 能力进化和上限突破、持续推进模型能力边界和商业价值的不断延伸。通过对前沿算法的极致探索和高效能工程体系的构建,驱动模型在逻辑推理、问答、复杂多轮上下文、指令遵循、Agent 智能体、多模态交互等关键领域实现突破性进展,打造世界一流的模型效果,并定义其在未来 AI 应用中的核心价值。 工作职责: ● 【战略规划与技术引领】 制定并执行大模型 Post-training 的中长期技术路线图,预判并布局下一代对齐技术、能力增强及对齐方案。主导核心算法的战略方向,确保技术路径与公司业务战略高度协同。 ● 【核心能力与壁垒构建】 领导团队进行体系化的数据驱动实验,不仅局限于日常迭代,更要建立可规模化的能力提升范式。您将攻坚并解决模型在复杂指令遵循、通用问答、RAG、深度逻辑推理、内容创作、Tool-Using 等方面的瓶颈问题,构建技术壁垒。 ● 【前沿算法研究与创新】 深入探索并推动 Post-training 领域的前沿算法创新,包括但不限于 RLHF/RLAIF 的新范式、模型融合 (Model Fusion/Merge) 、模型蒸馏及 MoE 模型的高效对齐策略。您的目标是显著降低模型幻觉、提升推理的效果、加强模型复杂指令的遵循能力。 ● 【多模态与未来探索】 从统一多模态模型的战略视角出发,您将指导并规划多模态统一大模型的 Post-training 技术融合。探索并落地高效的多模态 SFT 数据构建、跨模态能力协同训练及对齐策略,确保模型在图文问答、视频对话 等复杂场景下实现无缝、精准的理解与生成。 ● 【团队领导与效能提升】 负责 Post-training 算法团队的组建、培养与管理,打造一支具备高效执行力和持续创新能力的顶尖团队。您将指导并优化从研究、实验、评测到部署的全链路工具链与工程框架,实现研发效能的倍增。

更新于 2025-12-02北京|杭州
logo of aliyun
社招3年以上云智能集团

一、GUI Agent多模态大模型研发与优化 1. 设计并实现多模态大模型,解决跨模态语义对齐、动态数据处理等核心问题。 2. 优化模型生成能力,支持复杂多模态交互,实现毫秒级响应。 3. 参与GUI Agent数据集构建及数据质量提升相关工作。 4. 参与大模型用户意图理解、任务规划及长任务执行端到端执行能力提升构建 二、多 Agent 系统算法设计 1. 构建多 Agent 协作框架,设计动态任务分配与博弈策略,解决资源争夺、动态联盟等复杂场景下的决策问题。 2. 结合各类强化学习策略,优化协作效率。 3. 参与工业级 Agent 系统落地,推动大模型与工具链的深度整合。 三、行业场景落地与创新 1. 探索生成式 AI 与 RAG(检索增强生成)的结合,提升垂直领域的知识推理能力。 2. 探索行业Deep Research+强化学习结合,提升行业Deep Research竞争力。 3. 熟悉AIGC视频生成或者图像生成技术,参与过业界知名视频生成项目优先,, 或者有视频生成模型优化技术经验。 4. 跟踪前沿技术,推动技术方案的创新与落地。

更新于 2025-11-13杭州|上海