通义研究型实习生-LLM自动评测技术
任职要求
- 熟练掌握至少一种编程语言:Python/C++等 - 熟悉机器学习/深度学习基本概念,有机器学习/深度学习相关的研究/项目经历 - 熟悉大语言模型相关技术和开发流程,包括训练/微调、推…
工作职责
背景:大语言模型(LLM)评测是LLM开发和应用中的关键环节。基于模型的自动评测技术,面向复杂任务,例如知识推理(Knowledge Reasoning)、多轮会话(Multi-tern Dialogue)、文本生成(Text generation)等,具有独特的优势,逐渐成为学术界和工业界关注的热点。
涵盖技术点包括:
1. 基于裁判员模型的自动评测技术(Model-based Automatic Evaluation for LLM),涉及LLM/RL相关模型的算法设计、训练、推理等内容
2. 基于模型的自动评测框架设计,裁判员模型在不同任务和细分领域的性能优化大模型的科学知识和文本推理能力是体现大模型智能程度的重要标准,而如何通过大规模算力显著提高大模型的相关能力目前仍是亟待被探索的。本项目旨在研究通过相关预训练数据挖掘合成、专项post-training优化、reward模型构建等技术提升大模型的专项能力并进一步反哺给通用模型。 拟解决的技术问题包括但不限于: -科学、文本推理类预训练数据的高效挖掘、构建 -科学、文本推理类数据的大规模自动合成 -科学、文本推理类能力的自动评测建设 -科学、文本推理类能力的post-training专项优化 -科学、文本推理类能力的reward model专项优化
随着大模型技术迅猛发展,模型迭代速度远超传统评测体系更新。当前行业面临核心痛点:复杂任务与长尾场景缺乏有效评估标准,主观指标难以量化,人工评测成本高、效率低。现有系统难以支撑大规模模型集成与快速实验,制约了模型在真实业务中的落地。本项目旨在构建下一代评测体系,解决评估滞后与对齐难题,确保模型能力可测、可控、可用,为业务场景提供坚实技术底座,推动 AI 从“可用”向“好用”跨越,满足产业界对高质量模型的迫切需求。 1. 深度挖掘大模型在复杂任务、长尾场景中的弱点,设计并构建具有可扩展性的自动化评测方案及高质量数据集; 2. 参与 LLM-as-a-Judge 方案的设计与实现,训练高精度的 Reward Model(奖励模型),建模人类偏好,提升模型在指令遵循、创造性等主观评价上的表现; 3. 设计高效的 Reward Signal(奖励信号)并合成对应数据,通过强化学习(RL)算法持续提升模型的能力上限与泛化性; 4. 参与开发 Evaluation 与 Reward System 所需的工程框架,简化多任务测试流程,提升大规模模型集成与实验的效率; 5. 跟踪全球大模型最新进展(如 Agent 评测、多模态对齐、自动化数据合成等),推动研究成果在真实业务场景中的落地。
1. 设计与开发评测方案: 围绕大语言模型和多模态大模型的各项能力,设计科学、公正、全面的评测(Benchmark)方案和对应的数据集。 2. 搭建评测平台: 参与或负责自动化评测系统的开发、部署和维护,提升模型迭代和评测效率。 3. 执行与分析: 对主流的开源及闭源大模型进行系统性评测,并对自研模型进行深度分析,撰写评测报告,为模型的优化方向提供数据支持。 4. 追踪前沿动态: 持续关注业界最新的大模型评测方法、基准和技术,并将其应用到实际工作中。