荣耀大模型评测算法工程师

社招全职研发类2025-09-28地点：上海状态：招聘

扫码手机上打开

任职要求

1、掌握大模型的基本原理，能够理解其架构、训练过程及评测标准等核心能力；
2、具有大模型评测或相关领域的工作经验，具备大模型性能评测、指标设计和自动化评测平台搭建等专业知识；
3、具备强化学习的基础知识，了解常用算法（如Q-learning、DQN、PPO、GRPO等）及其在模型评测中的应用；
4、熟悉深度学习框架（如TensorFlow、PyTor…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、设计和开发大模型的评测指标和算法，确保大模型性能的科学量化和准确评测，并构建自动化评测平台，实现评测流程的标准化和高效化，撰写评测报告和技术文档；
2、负责大模型的性能评测与分析，识别大模型在不同任务和场景下的优劣势，并与大模型研发团队紧密合作，提供评测反馈，推动大模型优化和迭代；
3、研究和实现先进的大模型评测方法，提升大模型的综合性能。跟踪行业前沿技术和评测方法，持续改进评测体系，保持技术领先。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

强化学习+

算法+

深度学习+

TensorFlow+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

大模型评测算法工程师

社招3-5年J0011

1、负责LLM、VLM、搜索推荐等大模型日常评测工作和评测体系建设，包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告，深度参与算法效果分析、挖掘问题归因； 2、以算法手段，对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测，持续跟踪行业前沿发展，并进行竞品对比； 3、从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准以及评测框架，包括通用能力、智能应用，如Agent、OpenClaw、CoWork等； 4、探索智能、高效的模型自动化评估方案，参与自动化评测工具设计、开发及维护； 5、提出更好的Benchmark，定义模型能力，定义AGI，并在相关会议或期刊发表； 6、站在用户角度，对产品、算法提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

更新于 2026-04-27北京

大模型评测算法工程师（J100902）

社招5年以上MEG

-负责医疗健康场景下 LLM / VLM / Agent 等模型评测体系建设，设计数据驱动、可复现、可扩展的评测框架，覆盖医学问答、健康科普、辅助问诊、报告解读、用药咨询、多模态理解等核心场景 -探索并落地智能化、平台化评测能力，包括 LLM-as-Judge、自动化弱项挖掘、医疗风险识别、模型对比分析、评测任务调度、指标看板、评测报告生成和多模型多版本回归分析 -基于评测结果开展模型误差归因与能力诊断，构建可复用的 case mining、error analysis 和能力边界分析方法，沉淀自动化诊断与质量监控能力，反向指导模型训练、post-training、prompt 和产品策略优化 -持续跟踪医疗大模型、医学知识评测、多模态医疗理解、Agent 评测、RAG 评测、用户模拟评测等前沿方法，结合真实医疗健康业务场景建设评测范式，为模型迭代和产品上线提供质量决策依据

更新于 2026-07-09北京

数据技术及产品部-大模型评测算法工程师-杭州/北京

社招2年以上技术类-算法

1.评测集自动构建技术：研究跨模态通用的评测集自动生成方法，构建不同模态（文本/图像/视频/音频/3D 等）评测集生产框架；研究动态评测集与抗污染技术，解决各模态静态评测集被"刷榜"后失效的通用问题；探索面向模型弱点的定向探测数据生成，通过错误模式分析自动生成针对性测试样本。 2.自动裁判技术：构建多模态通用的自动评判算法框架，统一支撑文本质量评判、生成内容质量评估、交互过程评估等不同评判范式，设计可插拔的评判策略组件；研究LLM as a judge及Agent as a judge，支撑 Agent 轨迹的中间步骤质量评估、推理链路正确性验证、世界模型的时序物理一致性检验等既需要结果评分也需要过程评分的评判场景。 3.Agent评测技术：设计Coding Agentic应用的端到端评估算法，包括多轮对话质量建模、用户意图满足度预测、任务完成率估计等；研究评测信号与用户真实体验的对齐技术，通过线上行为数据反标定离线评测指标的有效性，构建离线评测可预测线上表现的校准模型。

更新于 2026-06-09北京|杭州

微信读书/输入法/秒剪-大模型评测算法工程师-Agent方向

社招1年以上微信读书技术

1.评测体系建设：负责大语言模型（LLM）及多模态模型（语音/视频/图片）的评测体系设计与搭建； 2.评测方案设计与执行: 构建自动化、可扩展的评测工具链，支持模型快速迭代验证。探索前沿评测方法，包括但不限于 LLM-as-a-Judge、动态评测、Arena 对战、复杂推理评估等； 3.模型能力诊断与优化协同：通过量化分析定位模型短板，与算法团队紧密协作，推动模型能力持续提升。

更新于 2026-06-29北京