logo of netease

网易AI应用工程师(评测方向)

社招全职3-5年网易游戏(互娱)地点:广州状态:招聘

任职要求


1. 本科及以上学历,计算机科学、软件工程、人工智能等相关专业;
2. 3-5 年相关工作经验,有 Agent/LLM Benchmark 构建经验者优先;
3. 熟练掌握 PythonTypeScript,具备扎实的工程开发能力,能独立完成评测工具链的设计与开发;
4. 对 Coding Agent 的工作范式有深入理解(规划-执行-反思循环、工具调用机制、多步推理等),是 Claude Code/ Codex / Cursor / Copilot 等 AI 编程工具的重度用户;
5. 熟悉主流 Agent 评测框架或 Benchmark(SWE-Bench、HumanEval、T…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们正在构建内部 Agent Benchmark 评测体系,聚焦 Coding Agent 方向,系统性地度量和驱动 AI 编程能力的提升。你将深度参与评测基准的设计、数据集构建、自动化评测平台搭建等核心工作,直接影响产品的技术演进方向。

工作职责
1.  Benchmark 体系设计与构建:针对 Coding Agent 场景(代码理解、代码生成、代码重构、Spec Coding、代码 Review、Bug 修复等),设计多维度、多粒度、支持多轮对话的评测基准,覆盖端到端任务完成度、代码质量、工具调用准确性、推理链路合理性等核心指标;
2. 评测数据集建设:构建并持续维护高质量评测数据集(Golden Dataset),设计覆盖不同语言、不同复杂度、不同工程场景的测试用例,确保数据集的区分度和代表性;
3. 自动化评测平台开发:搭建自动化评测 Pipeline,支持多模型/多 Agent 的批量评测、结果对比与回归检测,实现评测流程的标准化和可复现;
4. 竞品对标分析:跟踪业界主流 Coding Agent 产品(如 Claude Code、Codex、Cursor、Copilot等)以及 Benchmark(SWE-Bench、HumanEval、Terminal-Bench、OctoCodingBench、WildClawBench、GAIA、WebArena、AgentBench、ToolBench 等),完成专项对比评测并输出分析报告;
5. 评测方法论研究:探索 LLM-as-Judge、对抗性测试、人机混合评估等前沿评测方法,持续迭代评测体系的科学性和有效性;
6. 结果可视化与洞察输出:开发评测报告自动生成能力,提供可视化的评测看板,将评测结论转化为可落地的产品优化建议。
包括英文材料
学历+
AI agent+
大模型+
Python+
还有更多 •••