美团【北斗】基座大模型算法研究员（通用 Agent/搜索Agent/安全方向）

校招全职核心本地商业-基础研发平台2025-05-23地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1.计算机、人工智能、自动化、数学、物理等相关专业；
2.在强化学习、语言模型、机器学习等一个或多个领域有较深入的研究者；
3.好奇心驱动，具有出色的分析、解决问题的能力，有自主探索解决方案的能力者；
4.具有良好的沟通协作能力，对追求纯粹的技术有强烈热情，工作积极主动，能够与团队融洽合作，一起探索新技术并快速试验想法，推进技术进步。
加分项：
1.具有优秀的基础算法、扎实的机器学习基础，熟悉 NLP、RL、ML 等领域的技术，在 NeurIPS、ICLR、ICML 等顶级会议/期刊上发表论文者优先；
2.具有优秀的代码能力，熟练掌握 C/C++ 或 Python 编程语…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

通用Agent方向：
1.探索模型通过 RL Scaling 等方式使用成套工具解决复杂问题的行动和规划能力，包括 Human in the Loop 多轮交互下 Agent 基础建模的新方案、以及与复杂环境的交互学习能力；
2.探索模型在 Non-Rule Based Outcome 场景下利用复杂信息进行有效推理的范式，包括 Proactive Agent 的建模方案；
3.探索研究更多内在奖励的机制，从而激发模型主动学习和自我更新的能力；
4.探索构建长期记忆机制，为下一代高效的推理模型、长序列推理及建模提供基础。

搜索Agent方向：
1.参与通用AI搜索中Agent的框架建设和算法优化，并能在实际业务场景进行落地；
2.探索指令微调、偏好对齐（RLHF/DPO）和LLM Reasoning（如思维链、多步推理）在AI搜索场景的应用，特别是提升复杂搜索能力（如Deep Research）；
3.构建端到端Agent优化系统，将意图识别、推理规划、工具调用、信息检索和结果生成等步骤联合优化，探索大模型AI搜索Agent的智能上限；
4.研究AI搜索Agent的自动评测标准和方法，构建公平、合理并且全面的评测系统加速Agent迭代；
5.跟踪大模型和搜索最前沿的技术，包括但不限于多模态、Scaling Law、训练范式探索、长文本优化、高效训推框架探索。

安全方向：
1.负责LLM、VLM通用大模型与垂类大模型的内容安全研发，提升模型识别风险、规避风险、处置风险的能力。
2.负责通过定性、定量方法评估策略表现，进行策略迭代更新，不断提升内容安全效果。
3.深度参与大模型、安全、算法等领域的调研，结合通用模型的新技术、新场景，如LongCoT、Agent、GUI，积极探索相应新技术、新场景上，安全方案的创新和落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

强化学习+

机器学习+

算法+

NLP+

NeurIPS+

ICLR+

还有更多 •••

登录查看完整学习资料

相关职位

【北斗】基座大模型算法研究员（评测与探索）

校招核心本地商业-基

美团大模型评测团队以指引通往AGI的道路为目标，深耕模型评测研究，系统性的理解大模型当前能力水平及未来技术发展方向，并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于： 1.构建科学有效的评测方案，为现阶段大模型提供有效的评测和分析手段，并面向未来模型储备评测技术，包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等； 2.结合模型训练过程和评测结果，对模型的能力进行建模及深入的理解和研究，包括能力体系构建、训练阶段分析、模型能力/问题溯源等； 3.探索模型能力边界，发现当前模型训练范式的局限性，寻求模型能力突破，包括异步交互、记忆管理、自主学习、具身智能等。本岗位涉及的模型及方向包括： 1.面向下一代文本模型的评测与探索，包括但不限于：完善推理系模型的评测框架，引入推理效率相关的评测指标等。 2.面向多模理解与生成能力评测与探索，包括但不限于：全模态及跨模态交互能力，世界模型与具身智能能力。 3.面向模型Agent能力的评测与探索，包括但不限于：模型的任务规划、工具使用、环境反馈、自主决策等通用Agent能力，及Computer Use、Code Agent、通用搜索等产品级Agent方向。 4.长周期人机协作与Agent能力边界探索，包括但不限于：Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。

更新于 2025-05-23北京|上海

【北斗】基座大模型算法研究员（预训练/原生多模态/智能体系统）

校招核心本地商业-基

预训练探索下一代大模型预训练范式，从模型结构、训练策略、数据策略、算力利用率等角度切入，打造具有更强能力和更高潜力的基座模型。 1.设计更高效的模型结构，提高给定数据量、计算量、参数量、序列长度等约束下的模型能力，如长序列能力、记忆能力、推理能力等； 2.探索更科学的训练策略，对影响training dynamic的关键变量（如学习率、batchsize、初始化等）形成更科学的认知，探索更适合大模型的optimizer等； 3.研究模型结构和数据的耦合关系；探索预训练与上下游环节的联合优化；改进分阶段训练范式； 4.结合MLsys解决大规模训练和推理中遇到的卡点问题，实现算法和工程联合设计。原生多模态 1.负责面向真实世界数据（尤其是大规模视频序列、图文交错数据等）的原生多模态大模型的架构设计与预训练技术探索。攻坚多模态信息（视觉、语言、音频、触觉等）的深度融合、统一表征与跨模态生成。借助更大规模自监督学习范式，驱动模型学习多模态序列分布，致力于让模型从海量数据中学习世界运行的规律、物理交互知识与通用技能； 2.设计并优化适用于原生多模态架构的表征构建与学习方案，以增强模型对多模态Token的深层理解、采样与复杂推理能力。结合SFT/RL等后训练探索，激发模型采样多模token，解决物理世界问题能力； 3.负责将原生多模态大模型学到的丰富先验知识高效迁移并赋能具身智能体。主导或参与强化学习（RL）、模仿学习（IL）、规划与控制算法的设计与优化，显著提升智能体在模拟及真实机器人上的学习效率、任务成功率与自主决策能力； 4.负责设计并与工程团队紧密协作搭建高逼真度、可扩展的具身智能模拟环境，产出多样化、高质量的合成交互数据，为强化学习算法的训练、测试以及Sim-to-Real研究提供坚实的数据与环境基础。智能体系统 1.研发端到端训练、能够自主处理问题、具备完整工具使用能力的智能体（Agent）系统，在Agentic Coding、DeepResearch等各类端到端任务上取得突破。 2.探索能够自主与环境交互，自适应学习并持续提升的智能体（Agent）系统，提升大模型解决现实问题的能力。

更新于 2025-05-23北京|上海

【北斗】多模态基座大模型算法研究员（视觉/语音/全模态融合）

校招核心本地商业-基

视觉方向 1.探索大规模/超大规模多模态视觉大模型，并进行极致系统优化，数据建设、指令微调、偏好对齐、模型优化。 2.探索统一的多模态大模型架构，打通理解与生成之间的壁垒，研究如何在单一模型框架下实现对多模态信息的深度理解与高质量生成。 3.探索多模态推理模型（Reasoning）架构、提升多模态在学科、通用视觉任务上的思考和推理能力。 4.探索视觉GUI Agent模型构建，提升GUI场景下的理解、规划和决策能力，进而提升人机交互的性能。 5.探索具身智能大模型的构建，提升机器人在物理场景中的模仿学习和强化学习算法，提升具身智能的多模态处理能力以及与开放世界的物理交互能力。 6.探索多模态视觉大模型后训练方法，探索指令微调、强化学习等后训练策略，提升模型的性能。语音方向 1.语音表征学习：探索同时适用于理解和生成任务、兼顾学习效率和效果的语音表征。 2.模型结构与预训练方法：研究可大规模扩展的模型结构，高效学习语音和文本知识，提升模型的理解和生成能力。 3.音频理解：在语音(Speech)之外，探索更广泛的音频（Audio，如音乐、环境声）理解能力。 4.音频生成：探索高质量音频生成能力，具备强表现力、多风格、多语种、多音色等。 5.后训练方法：探索基于 SFT 和 RL 的后训练策略，进一步提升模型能力上限，。 6.智能交互技术研究，探索高效的智能交互技术，增强系统交互过程中的智能能力、拟人度、自然度和主动性。全模态融合大语言模型最近取得的突破，加速了多模态大模型的发展。全模态大模型（Omni-MLLM）通过融入如视觉、语音等模态，拓展了多模态大语言模型的能力，有助于更全面、多维度地理解与生成各种模态，提供更强的智能以及更智能的交互模式。 1.多模态表征对齐：研究在统一模型架构下提取并共享视觉、语音、语言等模态的特征；基于对比学习、自监督学习，优化多模态对齐过程；针对视频、音频等数据，研究时间序列信息的对齐技巧。 2.多模态统一模型架构：探索统一全模态大模型架构，研究高效全模态预训练技术，使之能够高效处理文本、图像、视频和语音数据，并生成涵盖文本、音频和图像等多种模态的输出 3.多模态知识迁移与能力增强：研究在不同模态间的能力迁移，激发模型在跨模态任务中的涌现能力。

更新于 2025-05-23北京|上海|深圳

【北斗】大模型应用算法研究员（多模态/后训练/Agent，AIGC/智能外呼/智能IM）

校招核心本地商业-业

研究方向一：基于大模型的智能销售助手研究本课题致力于将大模型技术和智能外呼任务相结合，优化美团智能外呼系统，增强其在复杂对话环境下的意图理解与灵活应对能力。力图实现更自然的语音交互、更精准的营销策略，以及更灵活的应答处理等。 1.转化信号奖励建模：依托业务场景多轮对话的真实转化信号，构建商家画像、对话文本特征信号以及交互环境特征，预估对话的转化率，进而通过强化学习（DPO/GRPO/RLHF）引导模型营销话术生成。 2.销售领域垂类大模型：通过收集多场景销售数据以及美团广告产品知识，通过continue-Pretraining构建垂类通用销售模型基座，支持多业务场景快速支持应用。 3.Multi-Agent交互式外呼系统：通过构建任务规划、流程监督、对话营销等多个agent交互逻辑，在较低响应耗时条件下，实现最佳的电话沟通效果。研究方向二：基于大模型的智能IM的研究与应用本课题致力于将大模型技术和商家端的各项客服任务相结合，通过大模型能力赋能美团商家与用户交互过程，降低商家与客户交互的成本，提升商户的成单数量。 1.基于多智能体的商家助手设计：设计基于大模型的多智能体交互方案，让模型在与用户交互过程中，能给有效识别用户意图，完成多轮交互。 2.工具调用与任务分解：设计多工具调用框架，使商家助手能够动态组合调用业务API、业务数据库等工具，完成多种复杂任务。研究方向三：基于大模型的广告创意生产本课题借助大模型的音、视、图、文等多模态理解、思考与生成能力，结合用户画像、商户/品特征、热点趋势等信息，探索实现低成本、个性化的商用级创意内容（如图文笔记、长视频）的生成技术。 1.多模态深度思考：设计与实现多模态深度思考方案，优化模型对多源异构信息进行抽取筛选、加工整合、衍生创作的能力，提升创意内容生成的质量与多样性。 2.开放问题的强化学习：针对无标准答案的开放问题（如笔记生成、剧本创作、素材选取等），设计与实现适配的奖励机制与策略，通过强化学习提升模型能力。 3.创意生产Agent：参考人工生产中的不同角色分工合作流程，设计与实现创意生产的多agent协作框架，并通过线上效果反馈机制，闭环提升生产的效率与质量。

更新于 2025-05-23北京|上海