logo of honor

荣耀AI模型评测工程师

社招全职研发类地点:北京 | 南京 | 上海状态:招聘

任职要求


1、掌握大模型的基本原理,能够理解其架构、训练过程及评测标准等核心能力;
2、具有大模型评测或相关领域的工作经验,具备大模型性能评测、指标设计和自动化评测平台搭建等专业知识;
3、具备强化学习的基础知识,了解常用算法(如Q-learning、DQN、PPO、GRPO等)及其在模型评测中的应用;
4、熟悉深度学习框架(如TensorFlow、PyTo…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、设计和开发大模型的评测指标和算法,确保大模型性能的科学量化和准确评测,并构建自动化评测平台,实现评测流程的标准化和高效化,撰写评测报告和技术文档;
2、负责大模型的性能评测与分析,识别大模型在不同任务和场景下的优劣势,并与大模型研发团队紧密合作,提供评测反馈,推动大模型优化和迭代;
3、研究和实现先进的大模型评测方法,提升大模型的综合性能。跟踪行业前沿技术和评测方法,持续改进评测体系,保持技术领先。
包括英文材料
大模型+
强化学习+
算法+
深度学习+
TensorFlow+
PyTorch+
还有更多 •••
相关职位

logo of kuaishou
社招3-5年D13923

1、负责大模型(包括不限于T2V、I2V、MLLM模型)评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设; 5、站在用户角度,对产品、算法发提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。

更新于 2025-08-11北京
logo of kuaishou
校招J1017

1、参与快手大模型(包括不限于大语言模型,文生图模型,文生视频模型和多模态大模型)日常评测工作和评测体系建设; 2、参与评测方案的持续迭代和优化,通过Prompt工程、自训练算法模型、NLP模型等手段,建设提升大模型评测能力; 3、参与快手大模型相关应用的迭代和效果优化,调研行业先进AI技术,并推动落地在实际项目中; 4、与相关上下游团队密切配合,评估模型效果、给出迭代建议、明确优化方向,从评测视角持续帮助模型能力提升。

更新于 2025-08-04北京
logo of kuaishou
社招3-5年D13923

1、负责大模型(包括不限于T2V、I2V、MLLM模型)评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设; 4、站在用户角度,对产品、算法发提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。

更新于 2025-09-19北京
logo of anker
校招

1. 与算法、产品密切配合,共同制定视觉AI算法评测标准,设计测试方案与用例,包含感知、运动控制、决策等算法; 2. 熟悉智能硬件产品,专注视觉算法模块测试,构建贴近真实的测试环境,验证AI模型性能与边界能力,协同算法/嵌入式工程师迭代优化; 3. 数据驱动优化,面对不同类型产品,构建对应基于场景的标准化评测数据集,输出算法模型关键性能指标,进行badcase深度分析; 4. 评测体系搭建,建立标准化、可复用的AI模型评测流程与自动化工具链,提升测试覆盖率和效率; 5. 竞品分析:横向竞品AI能力评测,输出差异化分析报告,指导产品技术决策与卖点打造。

更新于 2025-08-19深圳