小米小米汽车-算法工程师-自动驾驶大模型方向
任职要求
1. 有较为完整的研发经验,经历技术预研、实车部署和优化迭代较为完整流程; 2. 具备扎实的深度学习理论基础,有视觉-语言多模态、轨迹预测、数据驱动决策规划等领域的研发和工程部署经历,有强化学习经历优先; 3. …
工作职责
1. 负责端到端的预测、决策和规划学习模型研发,解决L4交通场景下的交互决策、轨迹规划问题; 2. 负责数据处理、标注和管理,研发基于数据的模型闭环迭代系统,提升整体效率和性能; 3. 跟踪最新的自动驾驶和人工智能技术动态,进行技术调研和快速验证。
公司介绍 滴滴于 2016 年组建自动驾驶技术研发部门,致力于打造世界领先的 L4 级自动驾驶技术,通过科技让出行更安全、更高效。我们相信,将自动驾驶技术部署在共享出行车队中,将创造最大的社会价值。依托滴滴在出行领域的 先进技术、海量数据、丰富经验和完整的出行平台生态,我们正在打造并运营世界领先的自动驾驶 Robotaxi 车队,推动自动驾驶在城市复杂交通场景中的规模化落地。 职位描述 作为感知团队的一员,你将与国内外顶尖人才一起,研究和开发自动驾驶领域的前沿算法,直接赋能 L4 Robotaxi 的大规模部署。 你将面向真实城市道路场景中的多样化挑战,利用多模态传感器(LiDAR、Camera、Radar 等)设计、开发并优化感知算法,解决物体识别、障碍物检测、场景理解、意图预测与大模型赋能等核心问题。 在这里,你将有机会: 与中美两地的优秀工程师和科学家合作,参与世界级的技术竞争; 深入研究并推动最前沿的学术成果在产业中的落地; 在全球最大出行平台之一的业务场景中,实现科研成果的规模化应用。 主要方向与职责: 你将在以下方向中选定一个或多个方向深入负责,并承担从研发到落地、从算法到系统的端到端职责: (一)物体识别与跟踪 设计并实现基于 LiDAR / Camera / Radar 的多模态检测模型,识别车辆、行人、自行车、静态障碍物、交通标志等 提升精度、召回率与抗扰性(抗遮挡、夜间、恶劣天气、长尾类别) (二)通用障碍物识别 识别未知类别 /未训练类别的障碍物 基于异常检测 /开放类别识别的算法研究与工程实现 在非结构化环境(施工区域、道路损坏、落物等)中提升鲁棒性 (三)场景和意图理解 语义分割、实例分割、道路 /车道/交通标志/交通灯等结构物识别 场景理解,例如施工区域识别、可通行区域识别等 意图理解,例如行人动作识别、起步意图识别等 交互和事件识别,例如多方交互、交通规则冲突、非规范驾驶行为等 (四)感知大模型 /多模态 探索或应用预训练多模态大模型,将视觉、语言、地图/文本信息融合以增强感知能力 零样本 / 少样本 / 跨域泛化的策略研发 将大模型成果迁移到真实车队感知系统中,提升复杂场景下的鲁棒性 (五)模型评估、验证 构建完整的评估管道,包括离线评估 + 真实道路 + 模拟环境测试,支持回归检测与性能监控 指标体系设计 (Precision, Recall, IoU, latency, false positives rate 等)
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们正在寻找对多模态技术充满热情的算法工程师,加入我们的研发团队。您将专注于多模态理解与生成,推动其在高德扫街榜等热门应用中落地,为用户提供更智能、更沉浸的服务。 主要职责: 1、多模态大模型研发:开发业界领先的图文多模态大模型,实现高质量场景理解和内容生成; 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等); 3、业务场景落地:将多模态技术应用于扫街榜等实际业务场景,与产品、工程团队合作,推动技术从研发到上线的全流程落地; 4、前沿技术探索:持续跟踪生成式AI、跨模态对齐、思维链、强化学习、多模态交互等最新技术趋势,提出创新性解决方案。
团队介绍: 作为中国领先的数字地图内容及导航服务提供商,高德地图日均服务数亿用户出行决策,每日处理超百亿级位置数据。视觉技术中心是驱动高德实现高精度地图、三维重建、LLM/VLM,AI Agent等核心技术,持续突破自动驾驶、AR导航、具身智能、推广搜和生活服务等领域的技术边界。团队不仅在计算机视觉领域持续深耕,更将计算机视觉及AI技术在自主导航、高德打车、生活服务等多元化应用场景。 作为高德地图的核心技术驱动部门,我们以下一代三维地图引擎、多模态理解与生成、空间智能、世界模型等方向为核心,推动智能出行与真实世界连接的深度融合。 团队gihub主页:https://github.com/amap-cvlab 为何加入我们? 挑战世界级技术难题,追求智能上限 用AI驱动国民级APP的产品迭代和颠覆式创新 我们正在寻找对多模态技术充满热情的算法工程师,加入我们的研发团队。您将专注于多模态理解与生成,推动其在高德扫街榜等热门应用中落地,为用户提供更智能、更沉浸的服务。 主要职责: 1、多模态大模型研发:开发业界领先的图文多模态大模型,实现高质量场景理解和内容生成; 2、模型优化与性能提升:优化多模态模型的推理速度和计算效率,支持端侧部署。探索适合大模型的压缩与加速技术(包括但不限于量化、剪枝、知识蒸馏等); 3、业务场景落地:将多模态技术应用于扫街榜等实际业务场景,与产品、工程团队合作,推动技术从研发到上线的全流程落地; 4、前沿技术探索:持续跟踪生成式AI、跨模态对齐、思维链、强化学习、多模态交互等最新技术趋势,提出创新性解决方案。
我们正在寻找在具身智能VLA(视觉-语言-动作)、空间计算(重建、SLAM等)及强化学习领域有深厚积累的算法同学,加入高德地图视觉技术中心。你将参与构建下一代地图中的感知、理解与决策系统,推动具身导航、AR/VR、场景建模等前沿技术的研发与落地。 如果你热衷于用AI改变人们出行方式,渴望在真实世界大规模数据上验证算法能力,欢迎加入我们! 岗位职责: ● 负责视觉语言动作(VLA)的具身智能模型和视觉语言模型(VLM)的研发,提升具身agent的空间理解和行动决策能力; ● 推进空间计算相关技术(如SLAM、三维重建、点云处理、姿态估计等)在下一代地图、虚拟现实等场景的应用; ● 探索强化学习在多模态大模型的后训练中的应用,提升具身/空间智能的能力天花板; ● 跟踪国际前沿技术发展,持续推动技术创新,并落实到实际应用中; ● 与工程团队紧密协作,完成从算法研发到系统部署的全流程闭环。