logo of honor

荣耀大模型评测高级专家

社招全职5年以上研发类地点:北京 | 上海状态:招聘

任职要求


1、硕士及以上学历,计算机科学、人工智能、软件工程、数学等相关专业。
2、5年以上大模型/AI模型测试相关工作经验,有主导大型大模型产品测试项目的成功案例。
3、精通大模型测试方法,能够针对模型的能力、性能、安全、合规等维度设计全面的测试方案,具备解决复杂测试问题的能力;具备自动化测试框架搭建经验,熟悉大模型评测…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、测试体系搭建:主导大模型全生命周期测试体系构建,覆盖预训练、微调、对齐、推理等核心阶段,制定适配大模型特性的测试策略、流程规范与质量评估标准。
2、测试执行与攻坚:牵头核心大模型版本的测试执行,负责复杂场景的测试用例设计、执行与缺陷分析,定位并推动解决大模型的深层次问题;
3、搭建自动化测试框架与工具链,实现大模型能力评估的自动化、规模化,提升测试效率与覆盖度;针对多模态大模型,设计图像、语音、文本融合场景的测试方法。
4、质量评估与优化:建立大模型质量评估体系,引入行业权威评测基准与自定义评测指标,输出客观、全面的模型质量报告,为模型迭代优化提供数据支撑。跟踪大模型行业测试技术发展趋势,引入前沿测试方法与工具,持续优化测试流程与评估标准,提升团队测试技术水平。
5、负责大模型测试过程中的合规性把控,确保测试数据、测试流程符合国家相关法律法规及行业标准,规避模型上线后的合规风险。
包括英文材料
学历+
大模型+
相关职位

logo of aliyun
社招3年以上云智能集团

1. 负责大模型训练、推理、评测、部署等核心链路的质量保障体系建设。 2. 设计并实现自动化评测框架,支持多维度(如准确性、一致性、安全性、推理速度等)的模型能力评估。 3. 构建高质量、可扩展的评测数据集,制定科学、可量化的评测标准与指标体系。 4. 推动CI/CD流程在大模型工程中的落地,保障模型迭代的稳定性与可回溯性。 5. 主导Bad Case分析闭环机制,联动算法、工程与业务团队优化模型表现。

更新于 2026-01-08北京|杭州
logo of aliyun
社招3年以上云智能集团

1. 负责百炼平台大模型调优与部署等AI工具链产品化落地; 2. 负责百炼平台的调优模型推理、模型评测、模型调优、模型广场等的模块的架构设计和开发工作; 3. 了解技术使用场景和优缺点,能够就复杂技术问题,提供解决方案并执行落地,同时对上下游技术团队及技术架构有完整的了解; 4. 基于业务需求和技术洞察,在调优后模型的推理服务方面,进行技术规划并落地。

更新于 2025-12-25北京|杭州
logo of xiaohongshu
社招2年以上审核策略

1、负责将内容安全/商业安全的复杂治理需求,转化为基于大模型的识别方案。通过PE/RAG/Workflow等技术持续实验和优化,不断提升策略的准确率与召回率。 2、能够开发用于安全场景的Agent和Workflow,实现复杂风险场景的自动化识别、推理和处置。 3、探索大模型及Multi-Agent领域前沿技术,进行技术调研、原型搭建和效果验证,并推动其在业务场景中的规模化应用。 4、作为大模型技术在安全领域的专家,强目标导向地协同算法、研发、治理、产品等团队,明确技术路径,统筹项目资源,共同实现安全目标。 5、具备产品意识,不仅满足于解决单点问题,更致力于优化产品工具、提升整体安全运营的效率和智能化水平。

更新于 2025-09-30北京|上海|武汉
logo of honor
社招5年以上研发类

1、主导多模态理解大模型的技术架构设计,负责核心技术方案的选型、论证与落地,攻克跨模态语义对齐、模态特征融合、异构数据理解等关键技术难题。 2、跟踪全球多模态大模型前沿技术的发展趋势,结合业务场景输出技术演进路线图,推动模型持续迭代升级。 3、模型研发与优化:牵头多模态理解大模型的后训练、微调、对齐等核心研发环节,负责模型结构设计、损失函数优化、训练策略制定,提升模型在跨模态检索、内容理解、图文生成、视觉问答等任务的性能表现。 4、负责多模态大模型研发过程中的技术瓶颈攻关, 结合业务需求定制多模态理解模型的解决方案,实现技术与业务的深度融合。

更新于 2026-01-09上海