logo of honor

荣耀大模型评测高级专家

社招全职5年以上研发类地点:北京 | 上海状态:招聘

任职要求


1、硕士及以上学历,计算机科学、人工智能、软件工程、数学等相关专业。
2、5年以上大模型/AI模型测试相关工作经验,有主导大型大模型产品测试项目的成功案例。
3、精通大模型测试方法,能够针对模型的能力、性能、安全、合规等维度设计全面的测试方案,具备解决复杂测试问题的能力;具备自动化测试框架搭建经验,熟悉大模型评测…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、测试体系搭建:主导大模型全生命周期测试体系构建,覆盖预训练、微调、对齐、推理等核心阶段,制定适配大模型特性的测试策略、流程规范与质量评估标准。
2、测试执行与攻坚:牵头核心大模型版本的测试执行,负责复杂场景的测试用例设计、执行与缺陷分析,定位并推动解决大模型的深层次问题;
3、搭建自动化测试框架与工具链,实现大模型能力评估的自动化、规模化,提升测试效率与覆盖度;针对多模态大模型,设计图像、语音、文本融合场景的测试方法。
4、质量评估与优化:建立大模型质量评估体系,引入行业权威评测基准与自定义评测指标,输出客观、全面的模型质量报告,为模型迭代优化提供数据支撑。跟踪大模型行业测试技术发展趋势,引入前沿测试方法与工具,持续优化测试流程与评估标准,提升团队测试技术水平。
5、负责大模型测试过程中的合规性把控,确保测试数据、测试流程符合国家相关法律法规及行业标准,规避模型上线后的合规风险。
包括英文材料
学历+
大模型+
相关职位

logo of alibaba
社招2年以上技术类-数据

作为大模型评测研发工程师,将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发:从评测数据集设计、智能化自动化评估方法探索研究、指标实现,到平台化落地,精准衡量模型能力边界,持续驱动模型语料优化与模型迭代 通用 Benchmark 研发 • 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架; • 研究并实现更贴合业务发展的评测方法与指标,构建高效、可扩展、可复现、可解释的评测引擎 业务领域 Benchmark 构建与评测 • 深入跨境电商各个业务领域,构建领域Benchmark,真实反馈模型业务表现 • 设计场景化评估方案,如RAG、Agent、COT、 In-Context Learning等,并形成端到端评测能力; 评测方法研究 • 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术 • 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议,高效复现SOTA方法,形成可比对可参考的评估系统

更新于 2026-01-27杭州
logo of aliyun
社招3年以上云智能集团

1. 负责大模型训练、推理、评测、部署等核心链路的质量保障体系建设。 2. 设计并实现自动化评测框架,支持多维度(如准确性、一致性、安全性、推理速度等)的模型能力评估。 3. 构建高质量、可扩展的评测数据集,制定科学、可量化的评测标准与指标体系。 4. 推动CI/CD流程在大模型工程中的落地,保障模型迭代的稳定性与可回溯性。 5. 主导Bad Case分析闭环机制,联动算法、工程与业务团队优化模型表现。

更新于 2026-01-08北京|杭州
logo of aliyun
社招3年以上云智能集团

1. 负责百炼平台大模型调优与部署等AI工具链产品化落地; 2. 负责百炼平台的调优模型推理、模型评测、模型调优、模型广场等的模块的架构设计和开发工作; 3. 了解技术使用场景和优缺点,能够就复杂技术问题,提供解决方案并执行落地,同时对上下游技术团队及技术架构有完整的了解; 4. 基于业务需求和技术洞察,在调优后模型的推理服务方面,进行技术规划并落地。

更新于 2025-12-25北京|杭州
logo of xiaohongshu
社招3年以上审核策略

1、 主导大模型平台及工具系统的设计:涵盖评测集、案例库系统、可视化等核心操作等模块,构建高效易用的全流程产品基础设施; 2、 承担多系统间架构串联工作:具备策略产品视野,设计灵活可靠的集成方案,实现大模型平台与知识库字体、审核系统、数据中台等的无缝对接,保障系统兼容性与可扩展性; 3、 深入挖掘业务需求与行业痛点,通过行业经验积累结合核心角色调研输出痛点解决方案,完成产品规划、PRD文档及原型设计,推动算法、工程、业务等跨部门团队高效协作,确保项目按计划落地交付; 4、 持续跟踪大模型领域技术趋势与行业动态,研究合规治理、风险控制等前沿方案,保持学习热情为企业内部持续输入前沿观点; 5、 通过数据分析定位问题并持续推动功能优化,持续提升产品性能。

更新于 2026-01-24北京