腾讯混元大模型算法研究员-模型评测
任职要求
1.解决问题能力: 具备基于第一性原理的卓越问题解决能力,能自主应对模型评测与诊断中的核心挑战; 2.评测分析经验: 具备从评测体系构建到深度性能诊断、评测结果分析的评测项目经验者优化; 3.沟通协作能力: 具备优秀的沟通协作…
工作职责
1.定义下一代评测范式:设计并建立一套能系统性地衡量大模型在开放、真实、复杂场景下的真实能力评测体系(包括不局限于Agent、Tool Use、Code、Search等),以科学地探索并定义模型的认知边界; 2.构建严谨、高效的评测数据体系:能将对模型能力的理解转化为科学、严谨的数据设计与rubrics标注规范,构建自动化评测数据合成算法,为整个评测体系提供高质量的数据基石; 3.评测算法研究:研究实现高效、精准的模型性能归因分析算法,准确定位模型薄弱区间。
负责通用AI大模型相关的评测与应用的规划、落地以及平台化能力建设,包括但不限于: 1.通用AI大模型评测基准的构建:建立覆盖文生文、多模态理解、多模态(音视频/3D/图/视频生成)生成等多模态的评测基准,设计全面、准确的多维度指标,构建自动化评测工具链,并随着模型能力的演进持续探索全模态的评测基准; 2.评测数据的自动化生产能力构建:基于数据泛化等能力,构建领域增强型评测数据集生产链路,支持多模态场景的自动化数据扩增与效果验证; 3.自动化评测与归因分析:探索并实现各个模态大模型的自动化评测与模型缺陷归因机制。
1.从事视频世界大模型的研发,包括训练数据的设计和构造,基础模型算法的设计,针对预训练/SFT/RL相关的优化,模型能力的评测,各种下游应用场景的探索; 2.科学分析研发中的各种问题,找到模型性能的瓶颈,从第一性原理出发找到解决方案,加速世界模型的开发和迭代,确保模型的竞争力和领先性; 3.探索实现世界模型的不同范式,研究下一代的模型架构,探索世界模型的边界。
1.与数据标注团队紧密合作,深入了解业务需求,为数据标注工作提供专业的技术支持与指导。与算法研发团队、产品团队等协同工作,参与项目的全生命周期,从需求分析到产品上线,保障数据标注相关算法与功能的顺利实现; 2.针对文本、图像、音频、视频等多类型数据,设计并实现高效的自动 / 半自动标注算法,大幅提升数据标注效率与准确性。2)研究并应用前沿机器学习算法,如半监督学习、主动学习算法,降低数据标注工作量,提升标注数据质量; 3.标注模型持续迭代与优化:对模型进行持续调优,以适应不同项目的数据特点与标注需求,提高模型在数据标注任务上的性能表现。分析、评估模型/工具效果,提出针对性的改进策略,推动标注模型/工具的迭代升级。