logo of meituan

美团【基座大模型北斗实习】开放域智能体交互与自动化评测演进机制研究

实习兼职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1、硕士及以上学历,计算机或相关专业,博士优先;
2、在 ML / NLP / RL / CV / Speech 等相关方向有扎实的研究基础,在 ACL / EMNLP / NAACL / NeurIPS / ICML / ICLR / CVPR / ICCV / ICASSP 等顶…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


简介:随着 OpenClaw、Claude Code 等 Agent 进入实战领域,传统的静态评测已无法衡量 Agent 的长程规划、自主纠错与真实环境交互能力。我们寻找对 Agent 评测范式有独特见解的同学,共同定义下一代 Agent 的考卷。你将参与的工作有:

1、评测范式研究与落地:
①针对 OpenClaw 及 Claude Code 等主流 Agent,构建基于真实生产力场景,如自动化办公、复杂代码重构、多工具协同等的动态评测沙盒环境。
②探索从“单轮对话”转向“长程任务”的评测机制,研究如何量化 Agent 的记忆一致性与环境感知力。
2、高价值方案产出:
①设计并构建能反映用户体感的评测集,不仅关注 通过率,更深入拆解用户在交互过程中的使用体验。
②建立 Agent 错误归因体系,针对 Agent 陷入死循环、幻觉指令、工具调用失败等典型场景进行深度诊断。
3、未来形态探索:
①跟踪前沿 Agent 发展,研究在多智能体协同、自主进化等未来形态下的 Agent 形态和相应的评测基准。
②利用 LLM/Agent-as-a-Judge 的方式,提升自动化评测的准确性与效率。
包括英文材料
学历+
NLP+
ACL+
EMNLP+
NeurIPS+
ICML+
还有更多 •••
相关职位

logo of netease
社招2-5年网易有道

我们正在寻找一位AI算法应用工程师,加入我们的技术团队。 该职位将负责开发和优化我们的基于LLM的大模型AI应用,预训练、基座需求较少。重点在于AI应用的开发阶段,后续可能会有SFT或DPO的需求。开发基于大模型的应用产品,以教育行业落地为导向,实现技术价值最大化。 工作职责: 1.负责企业应用中生成式AI能力的设计、开发和部署,提供更好的用户体验 2.结合工作流、提示工程、模型选择、模型微调等技术,支持关键产品功能 3.开发并维护我们使用大型语言模型能力的服务,保证算法服务的稳定性和可观测性 4.跟进前沿趋势,为团队调研引入新的AI应用场景

更新于 2025-04-16北京
logo of xiaohongshu
社招3-5年后端开发

工作职责 1. 参与广告投放平台(聚光、薯条等)核心业务系统设计和开发,包括广告管理、广告数据、创意优选等核心模块,服务于小红书商业广告数十万客户。 2. 参与到广告B端基于AI核心功能开发与优化,从投前拉新、投中广告诊断到投后复盘多个环节进行深度提效,不断降低广告营销门槛让更多的客户在小红书持续投放持续经营。 3,参与广告核心中台维护,负责底层海量广告库的维护与开发,不断提升广告系统的稳定性和整体运行效率,构建行业一流的广告基座服务。 4. 和产运、一线客户一起,共同设计小红书行业特色的广告产品,服务于千行百业广告主,共同推进小红书商业化广告快速发展。

更新于 2026-03-27北京|上海
logo of ke
社招0-3年XYZ

各类大模型算法岗位:包括不限于 ✓大模型应用(Rag、Agent的研究等) ✓大模型技术研究 (指令微调、强化学习、推理等) ✓多模态理解与生成研究(文本、图像、视频、音频等)

更新于 2025-02-18北京
logo of kuaishou
社招3-5年D13923

1、负责大模型(包括不限于T2V、I2V、MLLM模型)评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设; 5、站在用户角度,对产品、算法发提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。

更新于 2025-08-11北京