通义研究型实习生-多模态大模型的世界感知能力提升
任职要求
候选人应为: 1.计算机及相关专业的博士或硕士研究生,且对多模态大模型有充分的兴趣; 2.最好有大模型,多模态学习、计算机视…
工作职责
近年来,随着人工智能和深度学习技术的迅猛发展,多模态大模型(Multi-modal Large Models)取得了显著的进展。这些模型能够通过处理多种数据类型(如文本、图像、视频、音频等)来完成复杂的任务,与传统单一模态模型相比,展现出更强的理解与推理能力。尤其是在语言、视觉和音频等领域,多模态大模型为诸多实际问题提供了创新的解决方案,并越来越广泛地应用在产业和科研领域,显著提高了自动化和智能化的水平。 本项目将着眼于以下几个层面技术,以推进多模态大模型对于世界的感知和交互: 1.动态视内容的理解:提升多模态大模型可以实现对视频内容的自动理解与分析能力。 2.提升模型对于图像中人类知识的理解的识别水平。 3.多模态大模型推理与理解能力的持续提升。
职位概述 我们正在寻找在视觉-语言-动作(Vision-Language-Action, VLA)领域具有扎实理论基础和丰富实践经验的算法工程师或研究员,致力于构建下一代通用智能机器人系统。你将参与从数据构建、模型设计到仿真训练与实机部署的全链路研发,推动 VLA 大模型在机械臂操作、人形机器人控制等复杂工业与开放场景中的前沿探索与实际落地。 职位描述(Responsibilities) 1. 前沿算法研究与复现 ○ 跟踪 VLA 领域最新进展(如 OpenVLA、RT-2、Pi0、RDT、Diffusion Policy 等),完成 SOTA 算法在仿真与实机环境下的复现与性能分析; ○ 探索基于大模型的端到端机器人决策框架,实现感知→理解→规划→动作的闭环。 2. VLA 模型架构设计与优化 ○ 设计面向工业场景的 VLA 模型结构,重点解决多模态特征对齐、动作序列生成、推理效率优化等问题; ○ 提升机械臂在复杂任务中的操作精度、泛化能力与鲁棒性。 3. Scaling 研究与泛化能力提升 ○ 开展 VLA 的 scaling law 研究,涵盖数据规模、模型结构、机器人构型等维度; ○ 实现长序列任务执行、跨任务技能迁移与动作泛化,在更复杂的工厂或开放环境中验证模型上限。 4. 数据系统与自动标注开发 ○ 参与多模态大模型所需的数据清洗、自动标注与增强系统的开发; ○ 探索高效的数据合成方法(如 sim2real 数据生成、LLM 辅助标注),保障数据质量与多样性。 5. 仿真训练与真实部署 ○ 基于 Isaac Sim / Gym / Lab、MuJoCo 等平台搭建高保真仿真环境,构建强化学习与模仿学习训练框架; ○ 设计 real2sim2real 迁移策略,加速算法从仿真到现实世界的部署; ○ 具备实机调试经验,能独立完成模型在机械臂或人形机器人上的部署与迭代。
团队介绍 POI智能化使命是通过高质量高效率低成本的智能化手段及先进生产力,数字化还原真实世界POI,保障POI数据的时效性、正确性和完备性,作为高德用户信息获取、交易履约和出行体验的基础。每个POI背后都有精彩的故事,我们作为链接POI和用户的第一步,每一分努力都是与现实世界的一次互动。 职位描述 我们需要NLP和多模态大模型方向的算法工程师,负责对地图生产资料、互联网情报、搜索日志、用户反馈等非结构化文本进行分析和信息抽取,负责理解高德用户的到达行为,融合人地大数据,构建知识图谱和智能推理能力,打通数据生产和前台业务,使得用户获得更加智能的出行和服务体验。 1、参与和负责POI产线的NLP算法部分,包括POI的NLP基础功能服务、多模态名称融合生成、名称质检模块、名称纠错模块等; 2、搭建POI的NLP基础服务平台,实现以POI为核心实体的地图数据图谱,为高德的POI搜索、推荐业务提供完备信息; 3、配合其他POI采集、挖掘、调度、聚合业务,建模NLP任务,提供准确且有效的NLP信息; 4、积极地探索和研究NLP的应用和认知领域,结合地图场景,提供更加全面且完备的服务;
我们正在寻找对世界模型与端到端自动驾驶技术充满热情的算法实习生,加入我们的前沿技术研发团队。您将专注于端到端自动驾驶算法的研发,推动其在智能驾驶中的落地应用,为用户提供更安全、更高效的出行体验。 主要职责 1、世界模型与建图研发:开发基于多传感器融合的世界模型,实现高精度地图构建与动态场景理解。 2研究基于NeRF、3DGS等技术的三维场景表示方法,提升地图生成的效率与精度。探索语义地图构建技术,结合深度学习实现道路、车道线、交通标志等元素的自动标注与更新。 3、端到端自动驾驶算法研发:研究端到端自动驾驶算法,结合强化学习、模仿学习等技术,实现从感知到决策的全流程优化。开发基于Transformer架构的多模态融合模型,提升自动驾驶系统的鲁棒性。 4、优化端到端模型的推理速度与计算效率,支持实时决策与控制。模型优化与性能提升:针对自动驾驶场景,优化模型的推理速度和资源占用,确保高性能与低延迟。 5、探索适合大模型的压缩与加速技术(如量化、剪枝、知识蒸馏),适配车载硬件平台。 6、前沿技术探索:持续跟踪世界模型、端到端自动驾驶、具身智能等领域的最新技术趋势。提出创新性解决方案,结合业务需求推动技术突破。
业务丰富,技术领先 高德打车算法团队深度赋能打车业务全链路,涵盖 用户增长、风控、服务管控、路线与上下车点推荐、ETA 预估、智能客服 等核心场景。多样化的业务挑战为算法创新提供了广阔的发挥空间,团队已在 AI 顶级会议发表成果。 精英阵容,国际视野 团队成员来自泰晤士世界大学排名 Top 10 的高校,以及美国常青藤、清华、北大等顶尖院校,兼具国际化背景与一流技术视野。 持续成长,共享共进 团队每周固定进行技术分享,氛围开放、互助友好;除了解答算法与工程难题,资深同事还会分享项目经验,并传授业务理解与问题解决的方法论,助你快速成长。 高德打车算法团队致力于用前沿AI技术重塑每一次打车体验。我们不是在做“推荐路线”,而是在理解用户为什么这样出行——他们偏爱哪条路?为何总在某个路口取消订单?哪些投诉背后藏着未被听见的需求? 我们正在寻找对用户行为洞察和大模型落地充满热情的实习生,与我们一起,用AI读懂出行的“潜台词”,让平台更懂你。 在这里,你将: • 构建用户出行偏好画像 基于海量行程数据,利用大模型(LLM)挖掘用户在路线选择、上下车点偏好、出行时段等方面的隐性行为模式,构建个性化出行画像,驱动个性化推荐与服务预判。 • 挖掘路线与上下车点的“隐藏特性” 分析亿级路线片段与上下车点的时空特征,通过大模型语义理解与多源信息融合,提炼可量化、可解释的“路段 / POI 质量标签”,优化点线相关推荐服务的质量。 • 提升投诉反馈的智能响应与信息透出能力 构建基于大模型的客诉理解与归因系统,自动识别投诉核心诉求(如“绕路”“司机态度”“等太久”),关联具体路线/上下车点/时段,生成结构化反馈报告,推动产品优化与客服话术升级,实现“从听抱怨到改体验”的闭环。 • 推动大模型技术在真实场景中的闭环落地 应用RAG、SFT、DPO、AI Agent等技术,构建可解释、可追踪、可迭代的智能系统,让模型不只是“跑得准”,更能“说得清、改得动、用得好”。 你的工作将直接服务全国数亿用户,每一次模型优化,都可能让一位用户少等5分钟、多一份安心、少一次投诉。你不是在写代码,你是在重塑人与出行之间的信任关系。