小米顶尖应届-强化学习端到端规划算法工程师-自动驾驶
任职要求
1. 人工智能、机器人、控制理论、计算机等相关专业博士; 2. 扎实的强化学习基础,熟悉Actor-Critic、离线RL、行为克隆、ILQL等方法; 3. 有大规模训练/模拟系统搭建经验; 4. 对自动驾驶系统有一定理解,了解驾驶决策的关键约束(舒适性、安全性)。 加分项: 1. 强化学习相关方向顶会(ICLR/NeurIPS/RSS/CoRL)发表经验; 2. 熟悉环境建模与场景驱动的RL设计; 3. 具备从RL策略到控制输出落地的系统经验。
工作职责
1. 研究并实现适用于自动驾驶场景的强化学习/模仿学习/混合学习策略; 2. 推动策略优化算法在实车数据和仿真数据间的迁移落地; 3. 联合量产团队完成RL策略在真实驾驶系统中的部署与评估。 【课题名称】 基于强化学习的E2E Planning 【课题内容】 致力于通过强化学习范式建立从视觉输入到控制输出的直接路径,强调在长期决策、稀疏奖励、环境反馈闭环中建模agent的真实驾驶行为。探索强化学习在自动驾驶E2E系统中的策略稳定性、泛化性与数据效率。
1. 研究并实现适用于自动驾驶场景的强化学习/模仿学习/混合学习策略; 2. 推动策略优化算法在实车数据和仿真数据间的迁移落地; 3. 联合量产团队完成RL策略在真实驾驶系统中的部署与评估。 【课题名称】 基于强化学习的E2E Planning 【课题内容】 致力于通过强化学习范式建立从视觉输入到控制输出的直接路径,强调在长期决策、稀疏奖励、环境反馈闭环中建模agent的真实驾驶行为。探索强化学习在自动驾驶E2E系统中的策略稳定性、泛化性与数据效率。
1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。
1. 研究VLM/VLA大模型的跨模态表示机制,构建适用于驾驶语境的latent policy head; 2. 探索视觉语言到行为(VL2A)的联合预训练方法,设计引导式数据生成与指令微调机制; 3. 构建视觉语言行为多模态数据集,支持高质量对齐(如视觉意图对话、轨迹文字描述); 4. 探索embedding space中的行为压缩、潜变量建模、语言驱动的轨迹解码与规划决策。 【课题名称】 多模态大模型(VLM/VLA) 【课题内容】 构建以视觉-语言-行为(VLA)联合建模为核心的大模型体系。基础模型采用大规模预训练视觉语言模型(VLM,如LLaVA、InternVL、GPT4V),通过Latent Action Modeling构建统一的感知-认知-决策抽象表示。研究如何以自然语言+视觉输入预测潜在行为意图与策略,通过领域微调(domain adaptation)与RLHF-style强化引导,打造真正具备泛化与交互理解能力的通用智能Agent。