logo of meituan

美团大模型Agent评测算法工程师

社招全职2年以上核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1. 硕士及以上学历,计算机或相关专业,博士优先。 

2. 在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级会议发表论文者优先。

3. 优秀的代码和算法功底,具备工匠精神,ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先。

4. 在大模型领域或强化学习领域,主导过大影响力的项目或论文者优先。

5. 出色的问题分析和解决能力,有自主探索、深耕一个领域的决心和定力。

工作职责


随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对ChatBot模型的Arena评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。

在这样的背景下,美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于:①构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等;②结合训练和评测,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等;③探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破。

本岗位涉及的方向包括:

1. Agent评测构建与方案探索,包括但不限于:通用模型的Agent能力评测与探索,Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。

2. 长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。
包括英文材料
学历+
NLP+
NeurIPS+
ICML+
CVPR+
ICCV+
算法+
Kaggle+
大模型+
强化学习+
相关职位

logo of kuaishou
校招J1001

1、以算法视角,参与快手大模型(包括不限于LLM、T2I、T2V、I2V、MLLM模型)评测工作和评测体系建设; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设。

更新于 2025-07-30
logo of kuaishou
实习J1001

1、以算法视角,参与快手大模型(包括不限于LLM,T2I,T2V、I2V、MLLM模型)评测工作和评测体系建设; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设。

更新于 2025-06-04
logo of bytedance
社招A104845

1、通过引入大模型技术,逐步探索数据研发自动化AGENT形态,为数据研发提效; 2、设计并构建智能体、Toolcall/MCP方案,补足单模型能力; 3、建立评测体系,通过提示词、模型训练算法进行快速调优。

更新于 2025-05-23
logo of 360
校招算法类

我们正在寻找对AI Agent技术充满热情的应届毕业生加入我们的算法团队。你将参与设计和开发下一代智能Agent系统,致力于构建能够自主决策、多轮交互和复杂任务执行的AI应用。 主要工作内容: 1.参与Agent框架的设计与优化,包括规划、记忆、工具使用等核心模块 2.开发多模态Agent系统,支持文本、图像、语音等多种输入输出形式 3.研究和实现Agent的推理链优化,提升复杂任务的执行效率 4.构建Agent评测体系,设计自动化测试和性能监控方案 5.参与Agent在垂直领域的落地应用,如代码生成、数据分析、客服等场景 6.跟踪前沿研究,将最新理论成果快速转化为产品创新

更新于 2025-09-02