小鹏汽车学习与规划融合算法实习生
任职要求
任职要求 - 机器人、计算机科学、人工智能、自动化等相关专业硕士/博士在读; - 熟悉深度学习框架(PyTorch),有模型训练和部署经验; - 熟练掌握Python以及C++编程,有良好的代码能力和工程素养; - 具备良好的论文阅读能力,能够快速复现前沿工作; - 每周至少能保证5天实习时间,实习期不少于6个月。 加分项: - 有人形机器人、机械臂等平台的实际开发与调试经验; - 了解模仿学习基本方法(BC、Diffusion Pol…
工作职责
1. 参与人形机器人Vision-Language-Action (VLA)算法的研发,包括数据采集、模型训练与部署、多模态大模型在机器人操作任务中的应用; 2. 负责机器人动力学建模、轨迹优化、实时运动规划算法开发与调优; 3. 探索VLA模型与传统运动规划算法(RRT、轨迹优化、MPC等)的结合方式; 4. 跟踪Learning for Planning / Planning for Learning领域最新进展,推动技术创新; 5. 参与机器人数据集的构建、清洗与标注流程优化;
-参与秒哒产品规划、设计和产品迭代。精准收集客户需求,剖析竞品,依此规划产品、设计功能,协同研发、测试团队,保障产品标准化发布 -立足客户需求,融合 AI 算法,助力打造高业务价值的产品方案。为模型算法优化提供运营支撑,助力算法在自助服务中高效落地,需熟悉大语言模型基础能力 -聚焦对话式产品跨行业应用,紧跟行业风向,挖掘业务场景与潜在需求,创新驱动,助力拔高产品竞争力,稳固行业领先地位 -参与联动核心算法、工程、测试、交付、运营等多部门,无缝衔接产品设计至落地各环节,确保流程顺畅高效
【课题说明】 传统的向量召回和深度学习推荐范式在深度交互、冷启动、长尾商品发现、多场景适配等方面仍存在诸多挑战。生成式推荐系统以大模型为核心,具备强大的内容理解、知识推理和个性化内容生成能力。通过将用户历史行为、上下文信息、多模态内容等深度融合,生成式推荐系统能够实现用户意图的主动理解、候选内容的生成与多场景下的精准推荐,极大提升用户体验和平台生态活力。 【建议研究方向】 1.生成式召回:研究基于大模型的生成式召回方法,实现以模型参数为载体的候选内容记忆与生成,突破传统召回技术的局限。 2.多轮交互推荐技术:探索多轮用户引导与深度交互机制,实时理解用户意图变化,满足“千人千面”的个性化需求。 3.推荐系统的可解释性与安全性:研究大模型驱动的推荐逻辑可解释性方法,提升用户对推荐决策的理解和信任。同时探索生成式推荐中的内容安全,保障推荐系统的合规性与用户体验。 4.推荐智能体与复杂任务规划:构建具备推理、规划和自主决策能力的推荐智能体,支持跨领域、跨步骤的复杂任务推荐。
随着大模型与生成式 AI 技术的快速发展,在多模态和复杂场景下让 Agent 具备更强大的决策和执行能力成为未来的重要趋势。OpenAI Operator 通过结合强化学习的多步决策机制与大模型的理解、推理优势,可在多种任务场景(如 Computer Use、网页浏览等)中实现高效且灵活的自动化决策和任务执行。本课题将聚焦多样化业务场景和复杂环境下的自适应策略设计、规划与推理,进一步提升 Agent 在真实应用中的表现。 主要研究内容包括但不限于: 1) 多模态与多步决策:设计并构建包含多模态信息、计算机交互、网络搜索、函数调用等多维度的复杂环境,研究如何利用端到端强化学习来进行多步决策,从而完成更具挑战的任务。 2) 策略学习与优化:在多种强化学习算法(如 PPO、GRPO 等)的框架下,探索高效的策略优化方法,为 Operator Agent 提供强大的决策和执行能力。 3) 规划与推理:借助大模型的知识与推理能力,设计可解释的多步规划算法;研究如何与外部工具或知识库交互,以扩展 Agent 的能力边界并提升其在真实环境中的自动化决策表现。