荣耀AI模型评测工程师

社招全职研发类2025-12-02地点：北京 | 南京 | 上海状态：招聘

扫码手机上打开

任职要求

1、掌握大模型的基本原理，能够理解其架构、训练过程及评测标准等核心能力；
2、具有大模型评测或相关领域的工作经验，具备大模型性能评测、指标设计和自动化评测平台搭建等专业知识；
3、具备强化学习的基础知识，了解常用算法（如Q-learning、DQN、PPO、GRPO等）及其在模型评测中的应用；
4、熟悉深度学习框架（如TensorFlow、PyTo…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、设计和开发大模型的评测指标和算法，确保大模型性能的科学量化和准确评测，并构建自动化评测平台，实现评测流程的标准化和高效化，撰写评测报告和技术文档；
2、负责大模型的性能评测与分析，识别大模型在不同任务和场景下的优劣势，并与大模型研发团队紧密合作，提供评测反馈，推动大模型优化和迭代；
3、研究和实现先进的大模型评测方法，提升大模型的综合性能。跟踪行业前沿技术和评测方法，持续改进评测体系，保持技术领先。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

强化学习+

算法+

深度学习+

TensorFlow+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

AI模型评测工程师（企业效能支持）

社招3年以上质量管理类

1、负责企业级AI知识库问答系统及智能Agent的评测体系建设，制定评测标准与流程，验证AI对知识库内容的理解、检索、应答准确性，识别问答偏差、信息遗漏、语义误解等问题，输出详细评测报告 2、基于业务需求与AI产品迭代规划，搭建并持续优化知识库问答、Agent评测的指标体系、评测基准库与自动化/半自动化评测方案，提升评测效率与覆盖度 3、深度分析评测结果，定位系统短板（如知识盲区、推理错误、交互不畅等），与算法、工程、产品团队协作推动模型迭代与产品优化 4、跟踪业界前沿评测方法（如Agent评估框架、复杂任务评测基准），引入适合业务场景的评测工具与方法论

上海

大模型评测工程师

社招3-5年D13923

1、负责大模型（包括不限于T2V、I2V、MLLM模型）评测工作和评测体系建设，包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告； 2、参与评测相关自动化评测工具开发及维护，最大化提高评测效率； 3、以算法手段，对基座大模型和AI Native应用进行分阶段、端到端评测； 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设； 5、站在用户角度，对产品、算法发提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

更新于 2025-08-11北京

大模型评测工程师

校招J1017

1、参与快手大模型（包括不限于大语言模型，文生图模型，文生视频模型和多模态大模型）日常评测工作和评测体系建设； 2、参与评测方案的持续迭代和优化，通过Prompt工程、自训练算法模型、NLP模型等手段，建设提升大模型评测能力； 3、参与快手大模型相关应用的迭代和效果优化，调研行业先进AI技术，并推动落地在实际项目中； 4、与相关上下游团队密切配合，评估模型效果、给出迭代建议、明确优化方向，从评测视角持续帮助模型能力提升。

更新于 2025-08-04北京

大模型评测工程师

社招3-5年D13923

1、负责大模型（包括不限于T2V、I2V、MLLM模型）评测工作和评测体系建设，包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告； 2、参与评测相关自动化评测工具开发及维护，最大化提高评测效率； 3、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设； 4、站在用户角度，对产品、算法发提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

更新于 2025-09-19北京