美团LongCat大模型 - 基座 Agent 评测分析研究员

社招全职2年以上核心本地商业-基础研发平台2026-05-29地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1. 硕士及以上学历，计算机或相关专业，博士优先。 

2. 在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础，在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

随着AI下半场的到来，传统的评测范式已经无法适配持续提升的模型能力，针对ChatBot模型的Arena评测的有效性也遭到质疑，如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示，AI接下来比拼的不是训练，而是“如何定义并评估真正有用的任务”。

在这样的背景下，美团大模型评测团队以指引通往AGI的道路为目标，深耕模型评测研究，系统性的理解大模型当前能力水平及未来技术发展方向，并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于：①构建科学有效的评测方案，为现阶段大模型提供有效的评测和分析手段，并面向未来模型储备评测技术，包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等；②结合训练和评测，对模型的能力进行建模及深入的理解和研究，包括能力体系构建、训练阶段分析、模型能力/问题溯源等；③探索模型能力边界，发现当前模型训练范式的局限性，寻求模型能力突破。

本岗位涉及的方向包括：

1. Agent评测构建与方案探索，包括但不限于：通用模型的Agent能力评测与探索，Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。

2. 长周期人机协作与Agent能力边界探索，包括但不限于：Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

NLP+

ACL+

EMNLP+

NeurIPS+

ICML+

ICLR+

还有更多 •••

登录查看完整学习资料

相关职位

LongCat大模型 - 基座agent评测分析研究员（生产力方向）

社招核心本地商业-基

负责围绕AI大模型算法的认知分析的研究工作，具体工作内容包括但不限于： 1. 深入理解大规模语言模型的模型结构、训练过程以及评测方式，根据模型的训练过程以及评测结果，对大语言模型存在的问题进行研究。 2. 深度参与通用生产力在claude code/OpenClaw等场景下的基座模型能力优化迭代，设计具有长路径、多步骤交互特征的评测任务集，实现从“单次问答”到“闭环任务”的评测转型。 3. 探索长周期下Agent在复杂任务的能力边界，涵盖工具调用、决策规划和记忆管理等方向，对前沿评测范式如基于沙盒环境的动态评测和多agent协同效率等进行深入研究.

更新于 2026-05-29北京|上海

【LongCat大模型人才校招】基座评测与认知分析-基础模型及Agent能力研究

校招核心本地商业-基

当前，我们正处在大模型从Chat Bot进化为自主智能体（Agent）的关键阶段。Agent 已深度融入代码生产、办公、搜索等场高价值景，其核心能力从单轮对话拓展到复杂任务规划、工具编排、长程记忆与多步推理。如何系统、科学地衡量这些前沿能力，已成为决定大模型能力天花板的核心挑战。我们诚邀对 Agent 评测有信念感的你，一同定义下一代 Agent 能力的标尺。本岗位涉及的具体方向包括： 1.构建 Agent 全维度评测体系：设计横跨感知-规划-执行-反思完整闭环的评测维度框架，重点覆盖代码、办公、搜索等高价值场景。 2.面向真实用户体验的评测方案建设：当前许多Agent应用领域出现了Benchmark指标相对饱和，无法准确链接真实用户使用体验等问题，我们希望从用户实际使用场景出发，构建高度拟真的交互式评测方案，设计体现用户使用体验的评测指标，对齐训练优化方向与提升用户体验的目标。 3.基于线上回流日志的模型问题分析与评测验收：利用线上真实交互日志，系统化挖掘 Agent 在复杂链路中的典型失效模式，如工具幻觉、目标偏离等。将发现的 Badcase 自动归因并转化为可复现的回归测试用例，建立基于回流问题的评测看板，以数据驱动方式量化模型版本迭代的真实收益。 4.探索下一代评测范式：研究人-智能体协同评估、自进化能力评估、Agentic Evaluation、Auto Research等前沿课题，推动评测范式和模型优化范式演进，产出高水平技术报告与顶会论文。【为什么是我们】 1.美团拥有世界级的业务难题，从POC到大规模场景，充满机遇与挑战，兼顾学习和成长。 2.业界前列的NV GPU和非GPU算力规模，协同算法，AI框架，网络，计算，芯片等多个团队共同建设大模型软、硬件技术底座。 3.团队拥有同行TOP级别的评测基础能力和相应资源投入，在大模型评测研究领域具备国内领先的竞争力，团队近年产出了PRDBench、AMemGym、CATArena等数十篇高质量论文及研究工作。

更新于 2026-06-03北京|上海

LongCat大模型 - 基座大模型评测分析研究员

社招2年以上核心本地商业-基

负责围绕AI大模型的模型评测与模型研究工作，具体工作内容包括但不限于： 1. 深入理解大规模语言模型的模型结构、训练过程以及评测方式，根据模型的训练过程以及评测结果，对大语言模型存在的问题进行研究。 2. 深入分析模型效果不符合认知的异常，根据具体的异常制定完善的研究策略，通过对比、归纳等方法，产出研究分析结论，探索突破性的优化方案，带来模型效果的迭代和突破。 3. 构建Data-Centric的数据-训练-评测闭环，探索研究包括但不限于下列方向：大模型数据、模型的Scaling Law，研究数据配比、加入方式与时机等对模型效果的影响。 4. 追踪大模型方向的前沿进展，积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 5. 与各相关部门保持良好沟通，深度参与大模型预训练、SFT、RLHF和评测等阶段，共同推动大模型持续优化。

更新于 2026-05-29上海|北京

LongCat - 大模型基座认知分析算法研究员（具身前沿研究、多模态评测）

社招1年以上核心本地商业-基

主要负责多模态大模型在全模态（包括图像、视频、语音）的生成和理解、具身智能和GUI Agent等方向的模型能力分析和训练策略优化，并且对训练数据、训练策略和模型能力之间的关系进行研究分析，产出可行的模型评测方案和训练策略，具体工作内容包括但不限于： 1. 追踪多模态大模型的前沿进展，积极学习新的模型结构、前沿模型认知，并进行深入分析。 2. 在具身智能方向中，探索VLA的data-scaling方案，指引VLM的关键能力提升；探索视频生成基座以及统一模型的潜力，包括但不限于世界模型训练和效果度量；积极探索VLA/VLM同环境交互的学习方法，涉及仿真和真机实验，研究通过强化学习的下一代智能提升的关键途径。  3. 在全模态统一生成理解方向中，研究达到理想态的关键演进路径并进行度量分析，指引长期有潜力的模型迭代方向。  4. 与各相关部门保持良好沟通，深度参与多模态模型的训练过程，共同推动多模态大模型持续优化。

更新于 2026-06-22北京|上海