logo of honor

荣耀大模型评测算法工程师

社招全职研发类地点:上海状态:招聘

任职要求


1、掌握大模型的基本原理,能够理解其架构、训练过程及评测标准等核心能力;
2、具有大模型评测或相关领域的工作经验,具备大模型性能评测、指标设计和自动化评测平台搭建等专业知识;
3、具备强化学习的基础知识,了解常用算法(如Q-learning、DQN、PPO、GRPO等)及其在模型评测中的应用;
4、熟悉深度学习框架(如TensorFlow、PyTor…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、设计和开发大模型的评测指标和算法,确保大模型性能的科学量化和准确评测,并构建自动化评测平台,实现评测流程的标准化和高效化,撰写评测报告和技术文档;
2、负责大模型的性能评测与分析,识别大模型在不同任务和场景下的优劣势,并与大模型研发团队紧密合作,提供评测反馈,推动大模型优化和迭代;
3、研究和实现先进的大模型评测方法,提升大模型的综合性能。跟踪行业前沿技术和评测方法,持续改进评测体系,保持技术领先。
包括英文材料
大模型+
强化学习+
算法+
深度学习+
TensorFlow+
PyTorch+
还有更多 •••
相关职位

logo of kuaishou
校招J1001

1、以算法视角,参与快手大模型(包括不限于LLM、T2I、T2V、I2V、MLLM模型)评测工作和评测体系建设; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设。

更新于 2025-07-30北京
logo of meituan
社招1年以上核心本地商业-基

参与语言大模型、视觉大模型、语音大模型、多模态大模型的应用评测与研究工作,具体工作内容包括但不限于: - 从大模型应用视角出发,建设科学、全面的大模型评测体系,制定并实施评测标准与评测方案。 - 对数据进行处理、理解,建设高质量数据pipeline,并基于科学、全面的评估体系构建数据集,系统评估模型能力,产出评测报告,指引大模型相应能力的提升。 - 利用大模型辅助、替代人工标注,准确、高效的进行半自动化、自动化的模型评测,降低评测成本、提升评测效率。 - 利用大模型进行自动化的Red Team,系统的发现9.11和9.8谁大答错等典型模型能力短板,以及模型发生涉政涉黄涉及未成年人等不当回复的风险。 - 对模型评测中发现的模型能力短板、模型能力变化、不符合认知的异常进行研究分析,产出研究分析结论,指引大模型相应能力的提升。具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响,以数据相关研究为例,包括不限于研究不同数据类型、不同数据配比、不同数据加入时机、不同数据规模等变量对各类模型能力的影响。 - 紧密关注大模型方向的前沿技术进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 - 紧密关注大模型应用落地的行业最新进展,结合行业进展思考大模型评测、训练的发展趋势,对模型评测体系、机制进行迭代。

更新于 2025-05-26北京|上海
logo of meituan
社招2年以上核心本地商业-基

随着AI下半场的到来,传统的评测范式已经无法适配持续提升的模型能力,针对ChatBot模型的Arena评测的有效性也遭到质疑,如何面向现阶段以及未来的模型能力进行科学有效的评估本身也是个极具挑战和价值的研究方向。OpenAI研究者也表示,AI接下来比拼的不是训练,而是“如何定义并评估真正有用的任务”。 在这样的背景下,美团大模型评测团队以指引通往AGI的道路为目标,深耕模型评测研究,系统性的理解大模型当前能力水平及未来技术发展方向,并以此为基础完善模型评测能力矩阵。团队工作方向包括但不限于:①构建科学有效的评测方案,为现阶段大模型提供有效的评测和分析手段,并面向未来模型储备评测技术,包括人机协同评测、产品化隐式评测方案、全模态交互式评测方案等;②结合训练和评测,对模型的能力进行建模及深入的理解和研究,包括能力体系构建、训练阶段分析、模型能力/问题溯源等;③探索模型能力边界,发现当前模型训练范式的局限性,寻求模型能力突破。 本岗位涉及的方向包括: 1. Agent评测构建与方案探索,包括但不限于:通用模型的Agent能力评测与探索,Computer Use、Code Agent、通用搜索等产品级Agent的评测方案和分析。 2. 长周期人机协作与Agent能力边界探索,包括但不限于:Agent的异步交互、适时思考、记忆管理、自主学习等能力的评测方案及实践探索。

更新于 2025-08-01北京|上海
logo of alibaba
社招2年以上

- 构建并完善大模型评测体系,包括评测标准制定,评测工具链开发和评测数据集建设; - 基于agentic业务需求设计评测方案,开展多维度模型评估,输出专业评测报告; - 参与Agent /工具调用 在垂直领域的算法工程化实现及性能评估研究; - 沉淀业务专家知识到 reward/critic 层面实现LLM-as-judge,沉淀长链数据资产;

更新于 2025-10-30杭州