百度大模型评测与数据分析实习生(J98343)
任职要求
-本科及以上学历在读,专业不限,计算机、医学相关专业优先 -对人工智能/大模型有浓厚兴趣,使用过大模型产品的用…
工作职责
-协助评测体系搭建: 协助团队参与大模型Benchmark的日常测试与数据集标注工作,学习使用自动化工具辅助提升工作效率 -Badcase分析: 参与模型生成结果的日常评估,负责收集和整理模型的Badcase。在指导下,学习归纳问题标签,协助团队提升模型回答的效果 - 数据整理与行业跟进, 协助整理日常的评测数据,制作数据统计表格;协助关注并体验市面上的各类大模型产品,为团队提供新鲜视角的反馈 -团队协作与执行: 配合产品策略与标注团队,按时完成分配的日常协作任务,保障数据流转顺畅
1.语料数据收集处理与标注:参与社交场景的文本对话语料收集、清洗和标注工作;协助 LLM、TTS 语音数据的处理、分类和质量评估;设计并执行语料标注规范,确保数据质量;协助寻找音源,能够使用AI工具合成音频数据。 2.模型评测与质量控制:参与大模型输出结果的人工评测和质量分析;执行语料质量检查流程,确保标注准确性;协助建立评测标准,参与模型输出质量评估。 3.数据分析与报告:记录并分析标注过程中的问题和改进点;撰写数据处理和评测报告。
负责LLM大模型评测算法的研究以及评测模型的训练、优化,具体工作内容包括但不限于: 1. 深入理解大规模语言模型的模型结构、训练过程以及评测方案,根据模型的训练过程以及评测结果,对大语言模型存在的问题和评测存在的问题进行研究,根据研究结果进行优化落地。 2. 深入分析模型评测结果中不符合认知的异常,根据具体的异常制定完善的研究策略,通过对比、归纳等方法,产出研究分析结论,指导模型训练优化。 3. 构建Data-Centric的数据-训练-评测闭环,探索研究大模型的数据、模型结构、评测策略、评测数据等对模型评测效果的影响,得出有效认知,指导模型训练和评测方案的建设。 4. 追踪大模型方向的前沿进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 5. 与各相关部门保持良好沟通,深度参与大模型预训练、SFT、RLHF和评测等阶段,共同推动大模型持续优化。
参与语言大模型、视觉大模型、语音大模型、多模态大模型的评测与研究工作,具体工作内容包括但不限于: 1、从大模型应用视角出发,建设科学、全面的大模型评测体系,制定并实施评测标准与评测方案。 2、开发算法对数据进行处理、理解,建设高质量数据pipeline,并基于科学、全面的评估体系构建数据集,系统评估模型能力,产出评测报告,指引大模型相应能力的提升。 3、开发算法,利用大模型辅助、替代人工标注,准确、高效的进行半自动化、自动化的模型评测,降低评测成本、提升评测效率。 4、对模型评测中发现的模型能力短板、模型能力变化、不符合认知的异常进行研究分析,产出研究分析结论,指引大模型相应能力的提升。具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响,以数据相关研究为例,包括不限于研究不同数据类型、不同数据配比、不同数据加入时机、不同数据规模等变量对各类模型能力的影响。 5、紧密关注大模型方向的前沿技术进展,积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 6、紧密关注大模型应用落地的行业最新进展,结合行业进展思考大模型评测、训练的发展趋势,对模型评测体系、机制进行迭代。
