蚂蚁金服研究型实习生-多模态长序列理解与复杂视觉任务推理
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的…
工作职责
研究领域: 人工智能 项目简介: 多模态长序列理解: 对多模态长序列理解能力的提升可以广泛应用在小时级长视频理解、多页长文档报告解读等场景,本项目主要探索提升多模态大模型对长序列的建模能力,构建多模态"大海捞针"benchmark, 并在多模态长序列理解任务如长视频理解、多页文档解析等任务上实现SOTA效果; 复杂视觉任务推理: 思维链在大语言模型已经取得了显著进展,但在多模态大模型中进展有限,制约了多模态模型在复杂推理任务中的表现,主要存在以下痛点:多模态复杂推理数据缺乏、视觉模块的感知局限性、缺乏成熟的多模态的推理scaling law方法。本研究重点推进基于RL的多模态推理Scaling law, 以提升百灵多模态大模型在复杂多模态推理任务上的业界的领先性。
职位概述 我们正在寻找在视觉-语言-动作(Vision-Language-Action, VLA)领域具有扎实理论基础和丰富实践经验的算法工程师或研究员,致力于构建下一代通用智能机器人系统。你将参与从数据构建、模型设计到仿真训练与实机部署的全链路研发,推动 VLA 大模型在机械臂操作、人形机器人控制等复杂工业与开放场景中的前沿探索与实际落地。 职位描述(Responsibilities) 1. 前沿算法研究与复现 ○ 跟踪 VLA 领域最新进展(如 OpenVLA、RT-2、Pi0、RDT、Diffusion Policy 等),完成 SOTA 算法在仿真与实机环境下的复现与性能分析; ○ 探索基于大模型的端到端机器人决策框架,实现感知→理解→规划→动作的闭环。 2. VLA 模型架构设计与优化 ○ 设计面向工业场景的 VLA 模型结构,重点解决多模态特征对齐、动作序列生成、推理效率优化等问题; ○ 提升机械臂在复杂任务中的操作精度、泛化能力与鲁棒性。 3. Scaling 研究与泛化能力提升 ○ 开展 VLA 的 scaling law 研究,涵盖数据规模、模型结构、机器人构型等维度; ○ 实现长序列任务执行、跨任务技能迁移与动作泛化,在更复杂的工厂或开放环境中验证模型上限。 4. 数据系统与自动标注开发 ○ 参与多模态大模型所需的数据清洗、自动标注与增强系统的开发; ○ 探索高效的数据合成方法(如 sim2real 数据生成、LLM 辅助标注),保障数据质量与多样性。 5. 仿真训练与真实部署 ○ 基于 Isaac Sim / Gym / Lab、MuJoCo 等平台搭建高保真仿真环境,构建强化学习与模仿学习训练框架; ○ 设计 real2sim2real 迁移策略,加速算法从仿真到现实世界的部署; ○ 具备实机调试经验,能独立完成模型在机械臂或人形机器人上的部署与迭代。
随着GPT-4o等全模态大模型的突破,多模态生成与交互技术正成为人工智能领域的核心竞争方向。但当前技术在多模态深度理解、长序列生成一致性、跨模态对齐精度、实时交互智能性等方面仍面临显著挑战。 本项目聚焦音频、视觉、文本的多模态融合场景,针对长序列生成、强化学习优化、跨模态推理、表征学习等关键技术进行攻关,旨在构建具备深度思考能力、高可控性、强交互性的新一代智能多模态系统,推动AI技术在音乐创作、实时对话、音视频生成等领域的产业化应用。
业务丰富,技术领先 高德打车算法团队深度赋能打车业务全链路,涵盖 用户增长、风控、服务管控、路线与上下车点推荐、ETA 预估、智能客服 等核心场景。多样化的业务挑战为算法创新提供了广阔的发挥空间,团队已在 AI 顶级会议发表成果。 精英阵容,国际视野 团队成员来自泰晤士世界大学排名 Top 10 的高校,以及美国常青藤、清华、北大等顶尖院校,兼具国际化背景与一流技术视野。 持续成长,共享共进 团队每周固定进行技术分享,氛围开放、互助友好;除了解答算法与工程难题,资深同事还会分享项目经验,并传授业务理解与问题解决的方法论,助你快速成长。 我们正在寻找相关专业的优秀实习生,一同探索前沿大模型技术及推荐营销算法在共享出行领域的深度应用,共同攻克业界难题,优化产品体验。 在这里,你将参与高德共享出行核心业务的大模型技术落地、推荐营销算法建设等,包括但不限于: 大模型方向:将大模型技术深度应用在高德打车核心链路上,包括多模态大模型、AIGC、SFT、RLHF、高效推理等,提升平台效率和用户体验; 推荐营销方向:利用深度学习、基于大模型的下一代推荐营销算法等,基于海量用户数据,进行高德打车全链路的推荐营销算法构建和迭代,包括多任务学习、多场景建模、序列决策、因果推断建模、应答时长预测等; 在这里,你的算法将直接服务全国数亿级用户,带来真实而深远的影响;你能接触到前沿大模型、多模态、强化学习等核心技术,并与顶尖同事共创,在开放包容的创新氛围下,发挥AI创造力。
1.负责包含文本、视频、图片、语音等多模态数据对齐的基础大模型核心技术研发,包括 Pretrain、SFT、RL 等,持续追踪和应用领域最新技术进展; 2.预训练:跟进和研发更先进的 foundation 模型结构、训练模式、scaling law,提高训练效率和优化关键问题(如推理、长序列能力,多模态融合); 3.后训练:跟进和研发基座模型的后训练技术,充分激发模型潜力,包括但不限于高质量指令样本构建、课程学习、reasoning RL 等方向; 4.应用:通过模型与场景的深度耦合,推进大模型能力在实际业务中的最优表达,构建具备长期价值的智能 Agent; 5.结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。