美团大模型Agent评测算法工程师
社招全职2年以上核心本地商业-基础研发平台地点:北京 | 上海状态:招聘
任职要求
1. 硕士及以上学历,计算机或相关专业,博士优先。 2. 在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶级…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对ChatBot模型的Arena评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。 在这样的背景下,美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于:①构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等;②结合训练和评测,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等;③探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破。 本岗位涉及的方向包括: 1. Agent评测构建与方案探索,包括但不限于:通用模型的Agent能力评测与探索,Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。 2. 长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。
包括英文材料
学历+
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
NeurIPS+
https://neurips.cc/
ICML+
https://icml.cc/
ICLR+
https://iclr.cc/
还有更多 •••
相关职位
校招J1001
1、以算法视角,参与快手大模型(包括不限于LLM、T2I、T2V、I2V、MLLM模型)评测工作和评测体系建设; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设。
更新于 2025-07-30北京
实习J1001
1、以算法视角,参与快手大模型(包括不限于LLM,T2I,T2V、I2V、MLLM模型)评测工作和评测体系建设; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设。
更新于 2025-06-04北京
社招技术
负责生活类智能体算法研发与优化, 使用大模型实现用户需求理解与分析、规划、执行、反思等核心agent 参与滴滴大模型核心业务相关的策略算法研发,构建面向海量数据与复杂任务的智能体服务 深入研究模型的驱动的 Agent 产品形态, 通过大模型驱动任务理解, 自主规划, 反思和行动 深入理解和解决大模型在通用 Agent 产品上的各种问题, 包括但不限于推理规划, 长上下文, 复杂指令遵循能力等, 并负责收集处理和提升数据飞轮优化的能力 设计和实现通用Agent 评测集以及评测链路, 帮助产品不断迭代和优化 不限于LLM、RAG、RLHF、多模态LLM内容理解、内容表征、推荐算法、行为序列建模、搜索算法 跟踪并研究前沿技术,推动AI技术在滴滴大模型业务中的创新和应用
更新于 2025-11-11北京