荣耀大模型评测高级专家
社招全职5年以上研发类地点:北京 | 上海状态:招聘
任职要求
1、硕士及以上学历,计算机科学、人工智能、软件工程、数学等相关专业。 2、5年以上大模型/AI模型测试相关工作经验,有主导大型大模型产品测试项目的成功案例。 3、精通大模型测试方法,能够针对模型的能力、性能、安全、合规等维度设计全面的测试方案,具备解决复杂测试问题的能力;具备自动化测试框架搭建经验,熟悉大模型评测…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、测试体系搭建:主导大模型全生命周期测试体系构建,覆盖预训练、微调、对齐、推理等核心阶段,制定适配大模型特性的测试策略、流程规范与质量评估标准。 2、测试执行与攻坚:牵头核心大模型版本的测试执行,负责复杂场景的测试用例设计、执行与缺陷分析,定位并推动解决大模型的深层次问题; 3、搭建自动化测试框架与工具链,实现大模型能力评估的自动化、规模化,提升测试效率与覆盖度;针对多模态大模型,设计图像、语音、文本融合场景的测试方法。 4、质量评估与优化:建立大模型质量评估体系,引入行业权威评测基准与自定义评测指标,输出客观、全面的模型质量报告,为模型迭代优化提供数据支撑。跟踪大模型行业测试技术发展趋势,引入前沿测试方法与工具,持续优化测试流程与评估标准,提升团队测试技术水平。 5、负责大模型测试过程中的合规性把控,确保测试数据、测试流程符合国家相关法律法规及行业标准,规避模型上线后的合规风险。
包括英文材料
学历+
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
相关职位
社招3年以上云智能集团
1. 负责大模型训练、推理、评测、部署等核心链路的质量保障体系建设。 2. 设计并实现自动化评测框架,支持多维度(如准确性、一致性、安全性、推理速度等)的模型能力评估。 3. 构建高质量、可扩展的评测数据集,制定科学、可量化的评测标准与指标体系。 4. 推动CI/CD流程在大模型工程中的落地,保障模型迭代的稳定性与可回溯性。 5. 主导Bad Case分析闭环机制,联动算法、工程与业务团队优化模型表现。
更新于 2026-01-08北京|杭州
社招3年以上云智能集团
1. 负责百炼平台大模型调优与部署等AI工具链产品化落地; 2. 负责百炼平台的调优模型推理、模型评测、模型调优、模型广场等的模块的架构设计和开发工作; 3. 了解技术使用场景和优缺点,能够就复杂技术问题,提供解决方案并执行落地,同时对上下游技术团队及技术架构有完整的了解; 4. 基于业务需求和技术洞察,在调优后模型的推理服务方面,进行技术规划并落地。
更新于 2025-12-25北京|杭州
社招2年以上审核策略
1、负责将内容安全/商业安全的复杂治理需求,转化为基于大模型的识别方案。通过PE/RAG/Workflow等技术持续实验和优化,不断提升策略的准确率与召回率。 2、能够开发用于安全场景的Agent和Workflow,实现复杂风险场景的自动化识别、推理和处置。 3、探索大模型及Multi-Agent领域前沿技术,进行技术调研、原型搭建和效果验证,并推动其在业务场景中的规模化应用。 4、作为大模型技术在安全领域的专家,强目标导向地协同算法、研发、治理、产品等团队,明确技术路径,统筹项目资源,共同实现安全目标。 5、具备产品意识,不仅满足于解决单点问题,更致力于优化产品工具、提升整体安全运营的效率和智能化水平。
更新于 2025-09-30北京|上海|武汉