美团【LongCat实习】基座评测与认知分析-基础模型及Agent能力研究
实习兼职核心本地商业-基础研发平台地点:北京状态:招聘
任职要求
1.硕士及以上学历,计算机或相关专业,博士优先。 2.在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
当前,我们正处在大模型从Chat Bot进化为自主智能体(Agent)的关键阶段。Agent 已深度融入代码生产、办公、搜索等场高价值景,其核心能力从单轮对话拓展到复杂任务规划、工具编排、长程记忆与多步推理。如何系统、科学地衡量这些前沿能力,已成为决定大模型能力天花板的核心挑战。我们诚邀对 Agent 评测有信念感的你,一同定义下一代 Agent 能力的标尺。 本岗位涉及的具体方向包括: 1.构建 Agent 全维度评测体系:设计横跨感知-规划-执行-反思完整闭环的评测维度框架,重点覆盖代码、办公、搜索等高价值场景。 2.面向真实用户体验的评测方案建设:当前许多Agent应用领域出现了Benchmark指标相对饱和,无法准确链接真实用户使用体验等问题,我们希望从用户实际使用场景出发,构建高度拟真的交互式评测方案,设计体现用户使用体验的评测指标,对齐训练优化方向与提升用户体验的目标。 3.基于线上回流日志的模型问题分析与评测验收:利用线上真实交互日志,系统化挖掘 Agent 在复杂链路中的典型失效模式,如工具幻觉、目标偏离等。将发现的 Badcase 自动归因并转化为可复现的回归测试用例,建立基于回流问题的评测看板,以数据驱动方式量化模型版本迭代的真实收益。 4.探索下一代评测范式:研究人-智能体协同评估、自进化能力评估、Agentic Evaluation、Auto Research等前沿课题,推动评测范式和模型优化范式演进,产出高水平技术报告与顶会论文。 【为什么是我们】 1.美团拥有世界级的业务难题,从POC到大规模场景,充满机遇与挑战,兼顾学习和成长。 2.业界前列的NV GPU和非GPU算力规模,协同算法,AI框架,网络,计算,芯片等多个团队共同建设大模型软、硬件技术底座。 3.团队拥有同行TOP级别的评测基础能力和相应资源投入,在大模型评测研究领域具备国内领先的竞争力,团队近年产出了PRDBench、AMemGym、CATArena等数十篇高质量论文及研究工作。
包括英文材料
学历+
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
ACL+
https://www.aclweb.org/portal/
Computational linguistics is the scientific study of language from a computational perspective.
EMNLP+
NeurIPS+
https://neurips.cc/
ICML+
https://icml.cc/
ICLR+
https://iclr.cc/
还有更多 •••