网易AI应用工程师（评测方向）

社招全职3-5年网易游戏（互娱）2026-06-17地点：广州状态：招聘

扫码手机上打开

任职要求

1. 本科及以上学历，计算机科学、软件工程、人工智能等相关专业；
2. 3-5 年相关工作经验，有 Agent/LLM Benchmark 构建经验者优先；
3. 熟练掌握 Python 和 TypeScript，具备扎实的工程开发能力，能独立完成评测工具链的设计与开发；
4. 对 Coding Agent 的工作范式有深入理解（规划-执行-反思循环、工具调用机制、多步推理等），是 Claude Code/ Codex / Cursor / Copilot 等 AI 编程工具的重度用户；
5. 熟悉主流 Agent 评测框架或 Benchmark（SWE-Bench、HumanEval、T…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们正在构建内部 Agent Benchmark 评测体系，聚焦 Coding Agent 方向，系统性地度量和驱动 AI 编程能力的提升。你将深度参与评测基准的设计、数据集构建、自动化评测平台搭建等核心工作，直接影响产品的技术演进方向。

工作职责
1.  Benchmark 体系设计与构建：针对 Coding Agent 场景（代码理解、代码生成、代码重构、Spec Coding、代码 Review、Bug 修复等），设计多维度、多粒度、支持多轮对话的评测基准，覆盖端到端任务完成度、代码质量、工具调用准确性、推理链路合理性等核心指标；
2. 评测数据集建设：构建并持续维护高质量评测数据集（Golden Dataset），设计覆盖不同语言、不同复杂度、不同工程场景的测试用例，确保数据集的区分度和代表性；
3. 自动化评测平台开发：搭建自动化评测 Pipeline，支持多模型/多 Agent 的批量评测、结果对比与回归检测，实现评测流程的标准化和可复现；
4. 竞品对标分析：跟踪业界主流 Coding Agent 产品（如 Claude Code、Codex、Cursor、Copilot等）以及 Benchmark（SWE-Bench、HumanEval、Terminal-Bench、OctoCodingBench、WildClawBench、GAIA、WebArena、AgentBench、ToolBench 等），完成专项对比评测并输出分析报告；
5. 评测方法论研究：探索 LLM-as-Judge、对抗性测试、人机混合评估等前沿评测方法，持续迭代评测体系的科学性和有效性；
6. 结果可视化与洞察输出：开发评测报告自动生成能力，提供可视化的评测看板，将评测结论转化为可落地的产品优化建议。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

AI agent+

大模型+

Python+

还有更多 •••

登录查看完整学习资料