蚂蚁金服研究型实习生-基于多模态大模型的流式视频交互和风险推理研究
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
工作职责
研究领域: 人工智能 项目简介: 近年来,大语言模型和多模态大模型的迅速发展解锁了众多应用场景,包括视觉指令跟随和长视频理解,最近的一些开源方法也已经在提升流式视频处理能力方面有所进展,但它们在交互流畅性和感知能力方面仍然存在不足。本项目旨在对流式视频理解和交互方向加大投入,在多模态大模型视觉内容理解、动态变化跟踪和精确时间对齐等方面进行算法创新,并尝试挖掘其对视频交互中风险动作和风险对话的识别能力,为依赖视频交互能力的各业务场景带来新的突破。
【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。
一、团队介绍 高德视觉技术中心为高德业务提供全面的核心视觉技术,是高德时空互联网领域重要的技术驱动力。我们专注于图像识别、点云识别、三维重建和传感器融合定位等领域, 我们致力于研究和开发业内领先的感知、SLAM、重建和多模态大模型等算法, 促科技创新,与生态共进,连接真实世界,做好一张活地图,让出行和生活更美好! 通过视觉技术中心的春季实习生项目,高校学生通过此项目可以接触到高德真实的业务场景和海量时空大数据,在优秀的前辈与高德技术人交流学习中加速成长。我们希望更多优秀的高校同学加入我们,一起打造极致的算法和产品体验。 二、基本要求 面向预期于26、27届毕业的同学,可以连续实习至少三个月的同学优先。实习地点:北京,我们将提供有竞争力的实习薪酬和充足的训练资源。 三、算法实习生 职位描述 团队主要聚焦视觉、矢量地图、多模态大模型技术,我们期待你的工作将覆盖以下至少一个技术方向: 1. 探索自动驾驶场景下的在线感知、建图、关联等前沿技术,包括但不限于矢量地图构建、矢量地图关联等; 2. 探索多模态大模型在下游任务中的技术能力,包括但不限于图文对齐/识别、跨模态理解生成、多模态检索、VLM端到端自动驾驶、世界模型等;
职位描述: 1、参与Agent系统的原型构建与落地,探索提升Agent自主理解、规划与执行任务能力的新思路与方法; 2、优化Agent的对话交互机制,尝试新颖的交互方式,以提升用户体验和任务完成的流畅性与智能性; 3、研究并实验Agent的知识整合与上下文记忆管理方案,探索更高效、智能的信息组织与检索技术,支持Agent进行更深层次的思考; 4、探索Agent与系统工具、API的智能协同策略,参与设计和验证更鲁棒、灵活的工具调用与任务规划流程,鼓励提出创新交互方案; 5、针对特定复杂场景,调研并实践Agent解决用户实际问题的创新路径,挑战并拓展Agent的能力边界。