小鹏汽车具身智能导航数据洞察实习生
任职要求
1、学历与专业:计算机、人工智能、自动化、机器人、电子工程等相关专业,本科及以上学历; 2、熟悉常用数据处理工具, 具备良好的代码开发能力,具备较强的数据分析能力和问题定位能力; 3、有数据清洗、质量评估、数据挖掘或聚类分析、异常检测、统计分析, 模型数据消融实验等相关经验优先; 4、熟悉视觉基础模型(Foundation Models)在场景理解中的应用,或使用过 SAM、DINO 等系列模型优先; 5、有导航 VLN 或操作 VLA 研发经验优先,有世界模型或世界动作…
工作职责
1、参与具身智能导航训练数据集建设,包括数据清洗、质量评估、轨迹/场景分类、异常数据与失败案例挖掘; 2、利用视觉基础模型(如 SAM、Grounding DINO、VGGT 等)进行场景解析、语义提取与数据标注辅助,优化数据标签质量与数据分布; 3、参与导航数据处理工具链开发,协助建立数据驱动的模型迭代闭环,通过数据分布分析和评测结果持续优化数据质量。
主导机器人行业趋势与市场需求洞察,结合技术可行性与商业价值,挖掘高潜力应用场景,输出差异化产品定义与竞争策略。 主导用户需求挖掘,将抽象需求转化为具体的产品功能、交互逻辑与形态设计,确保产品定义兼具创新性与落地性。 与技术产品经理、技术团队高效协同,推动技术攻关与方案优化,确保关键模块(如结构、运控、电子电气传感器、环境感知与理解、导航规控等)的研发落地符合产品定义。 制定并管理研发计划,覆盖需求分析、原型开发、测试验证、量产交付等阶段,确保项目按期按质交付且BOM成本达标。 为产品商业成功负责,进行产品全生命周期管理,协调内外部资源如供应链、市场、售后,确保产品从概念到上市的成功。 沉淀产品方法论与技术资产,推动团队能力升级,提升产品线整体竞争力。
1. VLA/VLN算法开发:研究并实现Vision-Language-Action (VLA) / Vision-Language Navigation(VLN)算法,使机器人能够根据自然语言指令以及当前场景进行自主移动; 2. 多模态融合:开发视觉、语言、地图等多模态信息融合模块,提升导航决策的准确性; 3. 场景理解:实现基于视觉和语言的场景语义理解,支持复杂环境下的目标定位与路径规划; 4. 模型训练与优化:负责VLA/VLN模型的训练、调优及推理性能优化; 5. 数据与评测:参与导航数据集构建、评测指标设计及Benchmark开发。
1. 路径规划 ‒ 开发适用于多种场景(如机器人导航、自动驾驶、无人机等)的路径规划算法; ‒ 实现经典和前沿的全局及局部路径规划方法(如 A*、Dijkstra、RRT、DWA 等),优化路径规划的效率和鲁棒性; ‒ 处理动态环境中的路径生成和调整,解决复杂场景下的避障问题。 2. 行动决策 ‒ 研究并实现具身智能体的行动决策算法,设计任务分解和行为选择的逻辑; ‒ 基于行为树(Behavior Tree)、有限状态机(FSM)等方法,构建模块化的决策框架; ‒ 开发多智能体协作与竞争的行动决策模型,支持复杂交互任务的执行。 3. 强化学习(Reinforcement Learning,RL) ‒ 针对具身智能场景(如机械臂控制、机器人动态避障、导航等),设计强化学习的 reward 函数和训练策略; ‒ 实现主流深度强化学习算法(如 DQN、DDPG、PPO、SAC 等),解决高维连续控制与探索问题; ‒ 优化强化学习模型的收敛速度和鲁棒性,提升算法在实际场景中的表现。 4. 模仿学习(Imitation Learning,IL) ‒ 通过专家示范数据(如轨迹、动作序列)训练智能体,实现模仿人类/智能体行为; ‒ 应用行为克隆(Behavior Cloning, BC)、逆强化学习(Inverse Reinforcement Learning, IRL)等技术解决稀疏奖励问题; ‒ 结合模仿学习与强化学习,提升智能体在复杂任务中的学习和泛化能力。 5. 算法优化与工程实现 ‒ 优化算法的计算效率和资源占用,适配实时性要求 ;‒ 在仿真环境(如 Gazebo、PyBullet、Mujoco 等)和真实设备中验证算法性能; ‒ 配合嵌入式团队完成算法在终端设备上的部署与优化。 6. 技术研究与创新 ‒ 跟踪具身智能领域的前沿算法进展,探索新技术的实际应用; ‒ 研究多模态感知与决策(如视觉、语音、触觉)的融合方法,提升智能体的环境理解与行动能力; ‒ 参与长期自主学习、在线学习和自适应学习系统的设计与开发。
我们是谁? 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现厘米级高精地图、实时三维重建、多模态感知等核心技术的引擎,持续突破自动驾驶、AR导航、智慧交通等领域的技术边界。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 岗位职责: 1. 多模态大模型研发与应用 负责多模态大模型的核心架构设计,研究并实现图片、视频、文本等跨模态特征对齐、融合与表征学习方法,负责多模态大模型的数据准备、高效训练(包括但不限于预训练、SFT、强化学习等)、推理加速等。 2. 模型优化与小型化部署 负责多模态大模型的轻量化设计、压缩与加速,确保模型在端侧设备上的高效运行。 针对高德地图的实际业务场景,优化模型性能,平衡精度与效率。 3. 创新性研究与落地 跟踪端侧生成式AI(Edge Generative AI)、强化学习(PPO、GRPO等)、智能Agent等前沿技术,探索多模态大模型在自动驾驶、智能导航等领域的潜在应用。 将研究成果快速转化为实际产品功能,推动技术创新与业务增长。