logo of didi

滴滴多模态大模型/VLA模型研究员(J231215004)

社招全职技术地点:广州状态:招聘

任职要求


1.	学历与基础:
a.	计算机科学、人工智能、机器人学或相关领域的硕士及以上学历,博士优先。
b.	具备良好的编程能力,精通 Python 及至常用深度学习框架,并对框架底层实现有一定了解。
2.	专业领域经验(至少精通以下一项):
a.	多模态大模型 / VLA模型: 拥有实际训练、微调或应用VLA模型以及多模态大模型框架的经验。理解多模态数据融合、对齐和协同的关键技术。
b.	生成式模型与世界模型: 熟悉并实践过基于Diffusion Models/自回归的时序生成模型,特别是在自动驾驶,机器人等对数据时空一致性有高要求的任务上有成功应用经验。
c.…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


团队介绍 
滴滴自动驾驶AI research 团队致力于自动驾驶领域以及机器人领域前沿算法的研究和实际落地,团队成员均毕业于国内外顶尖高校,并在人工智能领域发表了多篇高水平论文 。团队的核心目标是从传统的模块化、规则驱动的系统,迈向以大模型(Foundation Models)为核心,数据驱动、端到端学习的全新架构,来打造通用的行为智能体,应用于自动驾驶,机器人等领域。团队目前的研究内容和探索方向包括但不局限于基于多模态大模型的模仿学习、强化学习、离线强化学习以及决策规划、Agent行为预测等。

主要方向与职责:
你将在以下方向中选定一个或多个方向深入负责,并承担从研发到落地、从算法到系统的端到端职责:

(1)前沿研究与探索:紧密跟踪并深入研究多模态大模型、生成式模型的最新进展。并探索和验证将这些前沿技术应用于自动驾驶和机器人领域的可能性。
(2)VLA模型设计与训练:主导或参与设计面向自动驾驶场景或者机器人的VLA大模型,通过将模仿学习和强化学习范式与大模型相结合,使其能够理解周边的三维场景以及人类指令,并输出安全、拟人化的行为决策。
(3)世界模型与闭环仿真:研究和构建能够进行时空预测的“世界模型”作为仿真器,将大模型智能体与仿真器深度结合,从而构建一个可以安全、高效地进行虚拟测试和迭代的闭环仿真环境。
(4)数据驱动与数据闭环:构建高效、可扩展的数据闭环系统。从海量真实数据中自动挖掘高价值的困难场景,长尾场景等,同时保证数据分布的多样性与均衡性。
包括英文材料
学历+
深度学习+
OpenCV+
Python+
C+++
PyTorch+
CVPR+
ICCV+
ECCV+
还有更多 •••
相关职位

logo of netease
社招网易伏羲

1、深入研究机器人多模态大模型(VLA模型)的理论及应用,包括预训练、微调策略、以及效果优化; 2、负责基于大模型的决策控制算法设计,探索前沿模仿学习(如 ACT、DP)及 Model-Based RL 算法在机器人上的研究与创新; 3、基于大模型开发创新算法框架,探索具身智能机器人实际场景中的应用方向,如 RT 系列等; 4、负责最新文献调研,跟踪多模态模型与机器人领域结合的技术前沿,提出具有创新性的研究思路; 5、参与并主导自定义数据集构建、特定任务的模型训练与评估; 6、推动具身智能系统算法在复杂场景下的理论研究,探索工程机械场景智能化解决方案。

更新于 2025-06-16杭州
logo of mi
校招

1. 参与研究与开发融合视觉与语言理解的端到端自动驾驶新范式; 2. 负责视觉语言大模型(VLA)相关算法的设计、实现与优化,提升模型的环境感知、决策规划能力; 3. 探索如何利用VLA增强自动驾驶系统的泛化能力及人机交互的自然性; 4. 参与相关数据集的构建、处理以及模型在真实场景中的部署与测试; 5. 跟踪VLA及相关领域(多模态学习、大模型等)的前沿技术动态; 6. 发表高水平论文至国际顶会顶刊,参加相关领域的国内外顶级学术会议。 【课题名称】 自动驾驶VLA大模型预研 【课题内容】 探索融合视觉语言行为大模型(VLA)至端到端自动驾驶的新范式,实现更强的自动驾驶泛化能力和更自然的交互方式。

更新于 2025-05-22北京
logo of mi
校招

1. 参与研究与开发融合视觉与语言理解的端到端机器人新范式; 2. 负责视觉语言大模型(VLA)相关算法的设计、实现与优化,提升模型的环境感知、决策规划能力; 3. 探索如何利用VLA增强机器人的泛化能力及人机交互的自然性; 4. 参与相关数据集的构建、处理以及模型在真实场景中的部署与测试; 5. 跟踪VLA及相关领域(多模态学习、大模型等)的前沿技术动态; 6. 发表高水平论文至国际顶会顶刊,参加相关领域的国内外顶级学术会议。 【课题名称】 具身基座VLA大模型预研 【课题内容】 探索如何利用VLA与Foundation Model技术提升机器人的环境理解、任务规划与泛化执行能力,构建面向未来的通用智能体。

更新于 2025-05-22北京
logo of sensetime
实习算法研究

1. 算法研发:聚焦自动驾驶、车载或机器人领域的算法和模型研发,不限于世界模型、视频生成模型、多模态大模型和VLA模型。 2. 业务落地:负责车载和自动驾驶业务的研究、设计、开发和优化工作。参与项目的需求分析、设计评审和代码评审。跟踪和研究领域的前沿技术和趋势,为项目提供技术支持。

更新于 2025-06-30北京|上海