美团【大模型北斗实习】大模型复杂推理前沿研究
任职要求
1)熟悉NLP、LLM、RL等相关领域,对其中一个或多个方向有深入的研究经历,且有相关实际项目经验。 2)熟悉Python、C++等至少一门编程语言,熟悉LINUX环境。 3)熟悉 Megatron、DeepSpeed 等开源训练框架。 4)熟悉PPO、DPO、GRPO等常用RL算法。 加分项: 1)有影响力的开源项目中做出过核心贡献。 2)发表过高水平论文优先(如NeurIPS,ICLR,ICML,ACL,EMNLP等)。
工作职责
Reasoning(推理)是大模型理解和处理信息的核心能力,是通用智能水平逼近的重要观测维度。课题聚焦于探究生成式模型的高级推理发生机制,提升大模型在复杂任务上的推理表现。 研究内容包括但不限于: 1)复杂任务推理应用效果优化,诸如逻辑推理、数学推理、代码推理、跨模态推理、多模型决策等。 2) RL scaling,通过大规模强化学习持续提升模型推理能力。 3)Test time scaling,通过增加inference时消费的算力持续提升模型推理能力。
Post-training 是提升大模型专项能力的核心技术方向之一,包括不限于复杂推理(Reasoning)、价值观对齐(Alignment)、业务Agent应用等研究方向。 本课题研究方向包括但不限于: 1)实现高效灵活的多模型强化学习训练架构。 2)通过合理灵活动态配置资源,提升PPO及各变种算法运行效率。 3)研究低精度在 Post-training 中的应用方式。 4)研究不同的算法+数据对效果的影响。 5)在复杂框架下,研究如何高效的追踪记录训练过程,提升算法探索效率。
随着 LLM 与 RL 技术的飞速发展,具备自主决策与执行能力的 Agent 系统成为 AI 领域的前沿研究方向。本课题聚焦于构建能够在真实物理世界(餐饮、购物、旅行规划等)复杂场景下自主运行的 Agent 系统,解决传统 AI 系统难以应对的多步骤规划、长期目标追踪、环境适应性等核心挑战。主要研究内容包括但不限于: 1)自主规划与决策:研究基于 LLM 的 CoT 等的复杂推理机制,使 Agent 能够自主分解并解决如"为一家四口安排一个周末出游计划,包括交通、住宿、餐饮和活动"等多步骤任务;开发能够在规划失败时进行自我修正和重新规划的自适应决策框架,突破传统 Agent 在复杂场景下的规划瓶颈。 2)强化学习驱动的自主优化:应用前沿强化学习算法(如PPO、GRPO、RL)优化 Agent 的决策系统,通过用户反馈和任务完成度构建复杂奖励函数;研究如何在高维状态空间和长期依赖问题中有效进行奖励分配,解决真实复杂物理场景中典型的延迟反馈和稀疏奖励挑战。 3)多 Agent 协作与分布式决策:设计基于角色分工的多 Agent 协作框架,使不同专长的 Agent 能够协同解决复杂任务,如"美食专家 Agent 负责菜品推荐,规划 Agent 负责整体行程安排"等;研究 Agent 间的通信协议和共识机制,解决分布式决策中的冲突协调和资源分配问题。
本课题聚焦大模型在复杂场景下的高阶认知能力突破,面向真实需求构建具备自主推理与协作进化能力的智能系统。通过前沿算法创新与工业级场景验证,助力研究者攻克高度自适应智能体架构设计、复杂决策优化等关键技术难题。 核心研究内容包括: 1)构建复杂情境推理框架:开发能够处理模糊信息、进行合理假设并自主验证的决策系统,突破不完全数据下的逻辑闭环能力。 2)建立多智能体协作范式:研究分层任务拆解机制与分布式决策架构,实现跨智能体的动态协调与效能优化。 3)设计任务驱动进化机制:结合强化学习与反思模型,持续提升智能体在业务场景中的自主适应与问题排查能力。 4)开发模型可解释性框架:创新推理过程可视化技术,建立决策依据追溯机制,显著降低模型幻觉风险。 5)探索人机协同新形态:构建具备环境感知与交互进化能力的智能助手,推动大模型在真实场景的可靠落地。
Post-training是联结大模型通用知识和人类偏好的桥梁,在规范知识输出、提升推理能力、对齐人类偏好等方面起到了关键作用。本课题专注于大模型Post-training相关前沿算法研究,包括但不限于: 1)训练机制设计和优化:包括数据建设、指令微调,人类偏好和安全对齐,奖励模型、强化学习及效果评估等方向,优化模型文本创作、逻辑推理、指令遵循、代码生成、工具调用等能力,提升模型可控性和安全性。 2)Post-training前沿研究:面向下一代推理基座的架构设计,test-time compute训练范式,思维链学习,多智能体和自博弈强化学习,提升模型的复杂任务处理能力和智能水平。