网易AI应用工程师(评测方向)
社招全职3-5年网易游戏(互娱)地点:广州状态:招聘
任职要求
1. 本科及以上学历,计算机科学、软件工程、人工智能等相关专业; 2. 3-5 年相关工作经验,有 Agent/LLM Benchmark 构建经验者优先; 3. 熟练掌握 Python 和 TypeScript,具备扎实的工程开发能力,能独立完成评测工具链的设计与开发; 4. 对 Coding Agent 的工作范式有深入理解(规划-执行-反思循环、工具调用机制、多步推理等),是 Claude Code/ Codex / Cursor / Copilot 等 AI 编程工具的重度用户; 5. 熟悉主流 Agent 评测框架或 Benchmark(SWE-Bench、HumanEval、T…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
我们正在构建内部 Agent Benchmark 评测体系,聚焦 Coding Agent 方向,系统性地度量和驱动 AI 编程能力的提升。你将深度参与评测基准的设计、数据集构建、自动化评测平台搭建等核心工作,直接影响产品的技术演进方向。 工作职责 1. Benchmark 体系设计与构建:针对 Coding Agent 场景(代码理解、代码生成、代码重构、Spec Coding、代码 Review、Bug 修复等),设计多维度、多粒度、支持多轮对话的评测基准,覆盖端到端任务完成度、代码质量、工具调用准确性、推理链路合理性等核心指标; 2. 评测数据集建设:构建并持续维护高质量评测数据集(Golden Dataset),设计覆盖不同语言、不同复杂度、不同工程场景的测试用例,确保数据集的区分度和代表性; 3. 自动化评测平台开发:搭建自动化评测 Pipeline,支持多模型/多 Agent 的批量评测、结果对比与回归检测,实现评测流程的标准化和可复现; 4. 竞品对标分析:跟踪业界主流 Coding Agent 产品(如 Claude Code、Codex、Cursor、Copilot等)以及 Benchmark(SWE-Bench、HumanEval、Terminal-Bench、OctoCodingBench、WildClawBench、GAIA、WebArena、AgentBench、ToolBench 等),完成专项对比评测并输出分析报告; 5. 评测方法论研究:探索 LLM-as-Judge、对抗性测试、人机混合评估等前沿评测方法,持续迭代评测体系的科学性和有效性; 6. 结果可视化与洞察输出:开发评测报告自动生成能力,提供可视化的评测看板,将评测结论转化为可落地的产品优化建议。
包括英文材料
学历+
AI agent+
https://www.ibm.com/think/ai-agents
Your one-stop resource for gaining in-depth knowledge and hands-on applications of AI agents.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
还有更多 •••