logo of meituan

美团大模型Agent评测算法工程师

社招全职2年以上核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1. 硕士及以上学历,计算机或相关专业,博士优先。 

2. 在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对ChatBot模型的Arena评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。

在这样的背景下,美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于:①构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等;②结合训练和评测,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等;③探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破。

本岗位涉及的方向包括:

1. Agent评测构建与方案探索,包括但不限于:通用模型的Agent能力评测与探索,Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。

2. 长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。
包括英文材料
学历+
NLP+
NeurIPS+
ICML+
还有更多 •••
相关职位

logo of hello
社招算法

1. 基于大语言模型构建客服对话、工单处理、舆情分析等应用,设计并优化多轮对话与复杂任务处理流程。 2. 构建从数据采集/评估/反馈/优化的闭环机制,建立完善评估体系(如效果评估、错误归因、质量监控)。 3. 持续推动模型效果优化,提升模型在真实业务中的泛化能力与稳定性。 4. 跟踪AIGC领域前沿技术(文本大模型/Agent/评测/强化学习等),结合业务需求进行算法创新与工程化落地。

更新于 2026-03-31杭州
logo of kuaishou
校招J1001

1、以算法视角,参与快手大模型(包括不限于LLM、T2I、T2V、I2V、MLLM模型)评测工作和评测体系建设; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设。

更新于 2026-03-24北京
logo of kuaishou
实习J1001

1、以算法视角,参与快手大模型(包括不限于LLM,T2I,T2V、I2V、MLLM模型)评测工作和评测体系建设; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设。

更新于 2025-06-04北京
logo of alibaba
社招1年以上技术类-算法

Accio是阿里巴巴国际数字商业集团阿里国际站内部孵化的一款战略级AI原生应用产品,也是全球首个B2B AI Agent,通过持续探索Agent、LLM、VLM、RL、Memory、Reasoning、AI Search等前沿技术,自研基座、Agent系统以及AI Search系统,实现B2B AI Agent跨越式发展。 1、负责Agent算法架构设计与效果优化,包括但不限于模型优化(Agentic Post-training/Agentic Infra等)自主规划(Planning)、多步推理(Reasoning)、工具/skill调用(Tool Use)、长短期记忆(Memory)及 RAG 增强; 2、复杂任务动态编排:设计并实现高扩展性的Multi-Agent协作框架(如Agent Swarm/Agent Team),支持将模糊的宏观目标递归拆解为原子任务; 3、Long-horizon运行设计:构建结合"工作记忆+全局知识库"的多级存储系统,解决Agent长期运行中的信息遗忘问题,建立跨Agent的共享上下文能力,设计Agent持续进化框架; 4、构建端到端的Agent评测体系,构建生产力场景benchmark,推动Agent在business场景落地; 5、探索落地前沿Agent技术,包含而不限于:Agentic Model、Agentic Benchmark、Agentic RL、Pro-active Agent、Function Calling、Tool-Use、Multi-Step Reasoning、Agent Harness、Agentic Post-Training; 6、探索Agent Architectures/Structures的上限,在Agent应用研究中最大程度释放模型的能力,研究Self-Evolving AI System,实现Self-Improving Agents。

更新于 2026-04-07杭州