美团LongCat大模型 - Agent 评测产品经理（欢迎算法/工程转型）

社招全职3年以上核心本地商业-基础研发平台2026-05-29地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1. 本科及以上学历，1年以上大模型评测或智能体应用落地相关经验。
2. 追求评测方案的科学性与细节完备性，并对新范式保持高敏感，关注 Claude Code / OpenClaw 等 Agent 工具链演进，并能转化为相应评测策略。
3. 对评测、观测、数据闭环有直觉，…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. Agent能力评测体系设计：围绕 OpenClaw、Claude Code 等主流 Agent 框架，设计并落地适配长程任务场景的评测体系，确保 Agent 在真实约束下的交付稳定性与可度量性。
2. 评测流程与资源建设：设计 Coding、数据分析等核心生产力场景的端到端评测流程，搭建自动化评测数据生产与自动化 Rubrics 生成的标准化 pipeline；同时建设具备强技术背景的专家标注资源池，确保 Case 评审、效果判定等关键环节的专业度与一致性。
3.数据闭环与模型策略驱动：将评测数据转化为模型迭代的策略输入，建立"评测→归因→策略建议→效果验证"的数据驱动闭环，推动 Agent 能力持续提升形成飞轮。
4.前沿框架跟踪与评测策略适配：持续跟踪 OpenClaw、Claude Code 及行业前沿 Agent 框架的能力演进与架构变化，及时调整评测策略与度量标准，确保评测体系与 Agent 技术范式同步迭代。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

LongCat大模型 - 基座agent评测分析研究员（生产力方向）

社招核心本地商业-基

负责围绕AI大模型算法的认知分析的研究工作，具体工作内容包括但不限于： 1. 深入理解大规模语言模型的模型结构、训练过程以及评测方式，根据模型的训练过程以及评测结果，对大语言模型存在的问题进行研究。 2. 深度参与通用生产力在claude code/OpenClaw等场景下的基座模型能力优化迭代，设计具有长路径、多步骤交互特征的评测任务集，实现从“单次问答”到“闭环任务”的评测转型。 3. 探索长周期下Agent在复杂任务的能力边界，涵盖工具调用、决策规划和记忆管理等方向，对前沿评测范式如基于沙盒环境的动态评测和多agent协同效率等进行深入研究.

更新于 2026-05-29北京|上海

LongCat大模型 - 基座 Agent 评测分析研究员

社招2年以上核心本地商业-基

随着AI下半场的到来，传统的评测范式已经无法适配持续提升的模型能力，针对ChatBot模型的Arena评测的有效性也遭到质疑，如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示，AI接下来比拼的不是训练，而是“如何定义并评估真正有用的任务”。在这样的背景下，美团大模型评测团队以指引通往AGI的道路为目标，深耕模型评测研究，系统性的理解大模型当前能力水平及未来技术发展方向，并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于：①构建科学有效的评测方案，为现阶段大模型提供有效的评测和分析手段，并面向未来模型储备评测技术，包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等；②结合训练和评测，对模型的能力进行建模及深入的理解和研究，包括能力体系构建、训练阶段分析、模型能力/问题溯源等；③探索模型能力边界，发现当前模型训练范式的局限性，寻求模型能力突破。本岗位涉及的方向包括： 1. Agent评测构建与方案探索，包括但不限于：通用模型的Agent能力评测与探索，Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。 2. 长周期人机协作与Agent能力边界探索，包括但不限于：Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。

更新于 2026-05-29北京|上海

【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究

校招核心本地商业-基

当前，我们正处在大模型从Chat Bot进化为自主智能体（Agent）的关键阶段。Agent 已深度融入代码生产、办公、搜索等场高价值景，其核心能力从单轮对话拓展到复杂任务规划、工具编排、长程记忆与多步推理。如何系统、科学地衡量这些前沿能力，已成为决定大模型能力天花板的核心挑战。我们诚邀对 Agent 评测有信念感的你，一同定义下一代 Agent 能力的标尺。本岗位涉及的具体方向包括： 1.构建 Agent 全维度评测体系：设计横跨感知-规划-执行-反思完整闭环的评测维度框架，重点覆盖代码、办公、搜索等高价值场景。 2.面向真实用户体验的评测方案建设：当前许多Agent应用领域出现了Benchmark指标相对饱和，无法准确链接真实用户使用体验等问题，我们希望从用户实际使用场景出发，构建高度拟真的交互式评测方案，设计体现用户使用体验的评测指标，对齐训练优化方向与提升用户体验的目标。 3.基于线上回流日志的模型问题分析与评测验收：利用线上真实交互日志，系统化挖掘 Agent 在复杂链路中的典型失效模式，如工具幻觉、目标偏离等。将发现的 Badcase 自动归因并转化为可复现的回归测试用例，建立基于回流问题的评测看板，以数据驱动方式量化模型版本迭代的真实收益。 4.探索下一代评测范式：研究人-智能体协同评估、自进化能力评估、Agentic Evaluation、Auto Research等前沿课题，推动评测范式和模型优化范式演进，产出高水平技术报告与顶会论文。【为什么是我们】 1.美团拥有世界级的业务难题，从POC到大规模场景，充满机遇与挑战，兼顾学习和成长。 2.业界前列的NV GPU和非GPU算力规模，协同算法，AI框架，网络，计算，芯片等多个团队共同建设大模型软、硬件技术底座。 3.团队拥有同行TOP级别的评测基础能力和相应资源投入，在大模型评测研究领域具备国内领先的竞争力，团队近年产出了PRDBench、AMemGym、CATArena等数十篇高质量论文及研究工作。

更新于 2026-06-03北京|上海

【LongCat大模型人才校招】大模型算法研究员-Search Agent方向

校招核心本地商业-基

你将加入 LongCat Agent 算法团队，与一线研究员共同推进下一代智能体的范式探索。具体方向包括但不限于： 1.Agentic RL 基础算法研究：探索面向长程多步任务的强化学习训练范式，包括稀疏奖励下的信用分配、过程奖励建模、自我博弈与多智能体协同、可扩展的 reward modeling，以及训练稳定性与样本效率优化。目标是实现Agent 能力增长的主引擎； 2.Search Agent 能力构建：研发面向开放域复杂查询的搜索智能体，覆盖多轮检索规划、查询改写、证据聚合、多源信息冲突消解与可信溯源。重点突破"深度研究"类长程任务（Deep Research）的端到端 RL 训练，让模型在数十步检索-推理交织中保持目标产出高质量分析内容。 3.生活服务助理 Agent：解决美团真实业务环境中（餐饮、出行、到店、履约等多业务横跨）实现智能助理的基础问题，研究多工具长链调用、澄清和主动服务、个性化记忆与偏好建模、跨会话状态管理，以及面向真实用户反馈的RL 闭环。这里的复杂度来自亿级用户、千万级 SKU 与多步骤决策构成的真实环境。【为什么是我们】 1.稀缺场景：直接接触亿级真实用户、跨业务多步决策的复杂环境，是当前业界最稀缺的 Agent 训练土壤； 2.充足资源：充足算力、丰富多模态数据、专属带教导师、顶级 infra 团队支持； 3.研究自由：明确鼓励技术探索，有机会参与顶会论文产出，研究成果可服务亿级真实用户实现学术与产业双闭环； 4.成长路径：北京 / 上海双地 base，扁平协作、与算法/Infra/产品高密度共事，快速成长为下一代 Agent 技术骨干。

更新于 2026-06-03北京|上海