米哈游AI评测工程师（LLM方向）

实习兼职程序&技术类地点：上海 | 北京状态：招聘

扫码手机上打开

任职要求

1. 本科及以上学历；
2. 熟练掌握 Python，具备较强工程能力与代码能力；
3. 具备较强的问题分析能力、实验设计能力与自主探索能力；
4. 有大模型评测相关经验，包括但不限于评测框架开发、Benchmark …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们希望你参与
 
1. 建设可持续演进的大模型评测体系；
2. 提升评测自动化程度与评测效率；
3. 推动评测数据、评测框架与评测方法持续迭代；
4. 用系统化评测驱动模型能力提升。

1. 负责大语言模型（LLM）评测体系建设，包括评测方案设计、评测指标定义、评测流程标准化等，建立可持续演进的评测能力体系；
2. 负责评测框架开发与维护，建设自动化、可扩展、高可靠的评测系统，提高评测效率与覆盖度；
3. 负责 Public Benchmark 与 In-house Benchmark 的建设与维护，包括评测集构建、数据清洗、版本管理、持续迭代与优化；
4. 根据模型迭代重点与业务需求，持续补充评测维度，动态优化评测集结构，提升评测集有效性与区分度；
5. 深入分析模型能力边界与问题分布，识别模型优势、短板与退化风险，建立问题发现与质量拦截机制；
6. 跟踪行业模型发展趋势，对主流模型进行横向评测与能力分析，量化模型能力变化与行业水平；
7. 参与模型训练与迭代过程中的评测建设，支撑模型研发闭环。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

还有更多 •••

登录查看完整学习资料

相关职位

AI评测工程师（LLM方向）

校招程序&技术类

我们希望你参与 1. 建设可持续演进的大模型评测体系； 2. 提升评测自动化程度与评测效率； 3. 推动评测数据、评测框架与评测方法持续迭代； 4. 用系统化评测驱动模型能力提升。 1. 负责大语言模型（LLM）评测体系建设，包括评测方案设计、评测指标定义、评测流程标准化等，建立可持续演进的评测能力体系； 2. 负责评测框架开发与维护，建设自动化、可扩展、高可靠的评测系统，提高评测效率与覆盖度； 3. 负责 Public Benchmark 与 In-house Benchmark 的建设与维护，包括评测集构建、数据清洗、版本管理、持续迭代与优化； 4. 根据模型迭代重点与业务需求，持续补充评测维度，动态优化评测集结构，提升评测集有效性与区分度； 5. 深入分析模型能力边界与问题分布，识别模型优势、短板与退化风险，建立问题发现与质量拦截机制； 6. 跟踪行业模型发展趋势，对主流模型进行横向评测与能力分析，量化模型能力变化与行业水平； 7. 参与模型训练与迭代过程中的评测建设，支撑模型研发闭环。

上海|北京

大模型Agent开发工程师

社招2年以上网易严选

1. 参与并负责严选事业部AI Agent的技术方案设计、LLM选型、Agent构建、Prompt设计、效果评测等工作； 2. 推进事业部AI工具链的建设，负责引入优秀的技术框架和解决方案，包括但不限于向量数据库、Agent构建工具、MCP Server等。

更新于 2025-06-20杭州

游戏AI研究员 / 大模型Agent工程师（开放世界方向）

社招3年以下网易游戏（雷火）

业务场景：在开放世界游戏环境中，进行游戏内容理解与动态解说，驱动智能体完成指定任务、实现自主探索，并支持多智能体复杂交互等前沿AI应用场景。岗位职责：研究与开发：负责开放世界游戏场景下基于大语言模型（LLM）及视觉语言模型（VLM）的智能体（Agent）技术研究与开发，涵盖Prompt工程、上下文学习（ICL）、检索增强生成（RAG）、监督微调（SFT）、强化微调（RFT）等关键技术。框架与工具链构建：主导游戏智能体核心框架的设计与实现，推动训练数据合成、自动化评测体系及相关算法的研发。工业化落地：推动游戏智能体技术在游戏内容生产与玩家消费场景的工业化部署与产品化落地，实现技术价值转化。

更新于 2025-08-22杭州

蚂蚁集团-算法工程师-大模型数据认知方向

社招技术类-算法

大模型数据认知方向，负责设计和开发先进的算法，解决大模型数据生产中的关键问题，包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下1个或多个方向 ● 数据知识体系生成：研究基于LLM的自动知识图谱生成技术，设计并实现自动化算法，构建高效、可扩展的大模型数据知识体系。 ● 语料自动分类：基于数据知识体系，研究和开发语料分类算法，指导大模型数据的拓展方向； ● 权威评测集建设：研究业界现有评测集的缺陷，构建标准化、多样化的权威评测集，用于评估大模型的性能；与跨职能团队合作，确保评测集覆盖全面且具有代表性。 ● 语料质量评估与合成：建立大模型训练的数据驱动体系，开发语料质量评估算法，识别低质量或噪声数据。研究数据驱动的语料合成技术，基于模型的评测效果，针对性合成能够改进模型效果的训练语料，提升模型迭代效率 ● 智能标注链路研发: 基于大模型数据的标注需求，研发辅助打标算法；设计构建 AI辅助的标注质量检验与标注提效的算法链路，提升人工标注的质检效率与标注质量 ● 技术创新与优化：持续跟踪学术界和工业界的最新研究成果，探索前沿技术在大模型数据中的应用。针对实际业务需求，提出创新性的解决方案并快速落地。

更新于 2025-06-18杭州