荣耀大模型评测高级专家

社招全职5年以上研发类2026-01-09地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、硕士及以上学历，计算机科学、人工智能、软件工程、数学等相关专业。
2、5年以上大模型/AI模型测试相关工作经验，有主导大型大模型产品测试项目的成功案例。
3、精通大模型测试方法，能够针对模型的能力、性能、安全、合规等维度设计全面的测试方案，具备解决复杂测试问题的能力；具备自动化测试框架搭建经验，熟悉大模型评测…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、测试体系搭建：主导大模型全生命周期测试体系构建，覆盖预训练、微调、对齐、推理等核心阶段，制定适配大模型特性的测试策略、流程规范与质量评估标准。
2、测试执行与攻坚：牵头核心大模型版本的测试执行，负责复杂场景的测试用例设计、执行与缺陷分析，定位并推动解决大模型的深层次问题；
3、搭建自动化测试框架与工具链，实现大模型能力评估的自动化、规模化，提升测试效率与覆盖度；针对多模态大模型，设计图像、语音、文本融合场景的测试方法。
4、质量评估与优化：建立大模型质量评估体系，引入行业权威评测基准与自定义评测指标，输出客观、全面的模型质量报告，为模型迭代优化提供数据支撑。跟踪大模型行业测试技术发展趋势，引入前沿测试方法与工具，持续优化测试流程与评估标准，提升团队测试技术水平。
5、负责大模型测试过程中的合规性把控，确保测试数据、测试流程符合国家相关法律法规及行业标准，规避模型上线后的合规风险。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

相关职位

AI Business-大模型评测高级算法工程师/专家-杭州

社招2年以上技术类-数据

作为大模型评测研发工程师，将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发：从评测数据集设计、智能化自动化评估方法探索研究、指标实现，到平台化落地，精准衡量模型能力边界，持续驱动模型语料优化与模型迭代通用 Benchmark 研发 • 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架； • 研究并实现更贴合业务发展的评测方法与指标，构建高效、可扩展、可复现、可解释的评测引擎业务领域 Benchmark 构建与评测 • 深入跨境电商各个业务领域，构建领域Benchmark，真实反馈模型业务表现 • 设计场景化评估方案，如RAG、Agent、COT、 In-Context Learning等，并形成端到端评测能力；评测方法研究 • 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术 • 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议，高效复现SOTA方法，形成可比对可参考的评估系统

更新于 2026-01-27杭州

阿里云智能-大模型工程链路测试开发专家/高级工程师-北京/杭州

社招3年以上云智能集团

1. 负责大模型训练、推理、评测、部署等核心链路的质量保障体系建设。 2. 设计并实现自动化评测框架，支持多维度（如准确性、一致性、安全性、推理速度等）的模型能力评估。 3. 构建高质量、可扩展的评测数据集，制定科学、可量化的评测标准与指标体系。 4. 推动CI/CD流程在大模型工程中的落地，保障模型迭代的稳定性与可回溯性。 5. 主导Bad Case分析闭环机制，联动算法、工程与业务团队优化模型表现。

更新于 2026-01-08北京|杭州

阿里云智能-技术专家/高级开发工程师-阿里云百炼

社招3年以上云智能集团

1. 负责百炼平台大模型调优与部署等AI工具链产品化落地； 2. 负责百炼平台的调优模型推理、模型评测、模型调优、模型广场等的模块的架构设计和开发工作； 3. 了解技术使用场景和优缺点，能够就复杂技术问题，提供解决方案并执行落地，同时对上下游技术团队及技术架构有完整的了解； 4. 基于业务需求和技术洞察，在调优后模型的推理服务方面，进行技术规划并落地。

更新于 2025-12-25北京|杭州

社区审核大模型策略高级专家（工具系统提效方向）

社招3年以上审核策略

1、主导大模型平台及工具系统的设计：涵盖评测集、案例库系统、可视化等核心操作等模块，构建高效易用的全流程产品基础设施； 2、承担多系统间架构串联工作：具备策略产品视野，设计灵活可靠的集成方案，实现大模型平台与知识库字体、审核系统、数据中台等的无缝对接，保障系统兼容性与可扩展性； 3、深入挖掘业务需求与行业痛点，通过行业经验积累结合核心角色调研输出痛点解决方案，完成产品规划、PRD文档及原型设计，推动算法、工程、业务等跨部门团队高效协作，确保项目按计划落地交付； 4、持续跟踪大模型领域技术趋势与行业动态，研究合规治理、风险控制等前沿方案，保持学习热情为企业内部持续输入前沿观点； 5、通过数据分析定位问题并持续推动功能优化，持续提升产品性能。

更新于 2026-01-24北京