
Momenta端到端决策规划算法实习生
任职要求
岗位要求 1、计算机、机器学习、人工智能、机器人等相关专业,有良好的数据结构和算法基础; 2、熟练使用 C/C++或 Python,有深度学习/强化学习等算法背景,具备扎实的数学基础; 3、熟练掌握至少一种深度学习框架(Pytorch/Tensorflow等); 4、有端到端/VLA,强化学习等研发以及产品应用落地经验者优先; 5、有自动驾…
工作职责
1、负责端到端决策规划算法的开发和迭代; 2、负责训练数据与评测数据的日常挖掘与维护; 3、负责端到端智驾大模型方案的研发迭代体系的建设与完善。
【课题说明】 以大模型对话技术为核心,探索前沿技术问题。研究方向包括角色扮演、个性化对话、记忆管理,拟人化,数字人等,主要业务场景包括运营,招聘,销售,审核等。目标是构建覆盖多个场景的Agent系统,实现“技术驱动业务范式”的升级转变。 【建议研究方向】 1. 大模型个性化(Personalized LLM):通过角色扮演、用户行为数据挖掘与建模、上下文理解等方法,分析用户情感状态,提升模型的个性化回复能力。 2. 面向语音交互的拟人化技术(Voice Agent):优化大模型在语音对话场景的效果,提升大模型的拟人化水平,探索下一代端到端语音对话大模型的技术实现。 3. 记忆管理与增强(Memory):通过优化模型长上下文能力、设计记忆抽取与管理模块,提升系统的记忆能力。 4. 基于LLM的RL(LLM-based RL):通过强化学习,提升模型规划、决策、推理等能力。 我们将提供充足的计算资源和良好的工作自由度,目标是产出有影响力的工作,解决业务实践中的问题。
随着大模型与生成式 AI 技术的快速发展,在多模态和复杂场景下让 Agent 具备更强大的决策和执行能力成为未来的重要趋势。OpenAI Operator 通过结合强化学习的多步决策机制与大模型的理解、推理优势,可在多种任务场景(如 Computer Use、网页浏览等)中实现高效且灵活的自动化决策和任务执行。本课题将聚焦多样化业务场景和复杂环境下的自适应策略设计、规划与推理,进一步提升 Agent 在真实应用中的表现。 主要研究内容包括但不限于: 1) 多模态与多步决策:设计并构建包含多模态信息、计算机交互、网络搜索、函数调用等多维度的复杂环境,研究如何利用端到端强化学习来进行多步决策,从而完成更具挑战的任务。 2) 策略学习与优化:在多种强化学习算法(如 PPO、GRPO 等)的框架下,探索高效的策略优化方法,为 Operator Agent 提供强大的决策和执行能力。 3) 规划与推理:借助大模型的知识与推理能力,设计可解释的多步规划算法;研究如何与外部工具或知识库交互,以扩展 Agent 的能力边界并提升其在真实环境中的自动化决策表现。
随着 LLM 与 RL 技术的飞速发展,具备自主决策与执行能力的 Agent 系统成为 AI 领域的前沿研究方向。本课题聚焦于构建能够在真实物理世界(餐饮、购物、旅行规划等)复杂场景下自主运行的 Agent 系统,解决传统 AI 系统难以应对的多步骤规划、长期目标追踪、环境适应性等核心挑战。主要研究内容包括但不限于: 1)自主规划与决策:研究基于 LLM 的 CoT 等的复杂推理机制,使 Agent 能够自主分解并解决如"为一家四口安排一个周末出游计划,包括交通、住宿、餐饮和活动"等多步骤任务;开发能够在规划失败时进行自我修正和重新规划的自适应决策框架,突破传统 Agent 在复杂场景下的规划瓶颈。 2)强化学习驱动的自主优化:应用前沿强化学习算法(如PPO、GRPO、RL)优化 Agent 的决策系统,通过用户反馈和任务完成度构建复杂奖励函数;研究如何在高维状态空间和长期依赖问题中有效进行奖励分配,解决真实复杂物理场景中典型的延迟反馈和稀疏奖励挑战。 3)多 Agent 协作与分布式决策:设计基于角色分工的多 Agent 协作框架,使不同专长的 Agent 能够协同解决复杂任务,如"美食专家 Agent 负责菜品推荐,规划 Agent 负责整体行程安排"等;研究 Agent 间的通信协议和共识机制,解决分布式决策中的冲突协调和资源分配问题。
我们正在寻找对世界模型与端到端自动驾驶技术充满热情的算法实习生,加入我们的前沿技术研发团队。您将专注于端到端自动驾驶算法的研发,推动其在智能驾驶中的落地应用,为用户提供更安全、更高效的出行体验。 主要职责 1、世界模型与建图研发:开发基于多传感器融合的世界模型,实现高精度地图构建与动态场景理解。 2研究基于NeRF、3DGS等技术的三维场景表示方法,提升地图生成的效率与精度。探索语义地图构建技术,结合深度学习实现道路、车道线、交通标志等元素的自动标注与更新。 3、端到端自动驾驶算法研发:研究端到端自动驾驶算法,结合强化学习、模仿学习等技术,实现从感知到决策的全流程优化。开发基于Transformer架构的多模态融合模型,提升自动驾驶系统的鲁棒性。 4、优化端到端模型的推理速度与计算效率,支持实时决策与控制。模型优化与性能提升:针对自动驾驶场景,优化模型的推理速度和资源占用,确保高性能与低延迟。 5、探索适合大模型的压缩与加速技术(如量化、剪枝、知识蒸馏),适配车载硬件平台。 6、前沿技术探索:持续跟踪世界模型、端到端自动驾驶、具身智能等领域的最新技术趋势。提出创新性解决方案,结合业务需求推动技术突破。