快手大模型评测工程师
任职要求
1、本科及以上学历,计算机、通信、人工智能、大数据、统计等相关专业优先; 2、优秀的代码基础,至少掌握一门高级语言, 包括但不限于Python、C/C++、 Java; 3、具备良好的数据化思维,能够基于数据分析结果给出分析结论,熟悉ACC、AUC、F1、recall等基本的模型评估指标计算方式; 4、具备良好的沟通能力和团队协作精神,严谨的工作态度与高质量意识,逻辑清晰、善于分析与总结,对大模型技术有深厚的热情和探索精神; 5、具备良好的视野,善于学习新的知识、阅读论文、动手能力强、有进取心及抗压能力; 6…
工作职责
1、负责LLM、VLM、搜索推荐等大模型日常评测工作和评测体系建设,包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因; 2、以算法手段,对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测,持续跟踪行业前沿发展,并进行竞品对比; 3、从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准以及评测框架,包括通用能力、智能应用,如Agent、OpenClaw、CoWork等; 4、探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护; 5、提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表; 6、站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。
1、负责大模型(包括不限于T2V、I2V、MLLM模型)评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设; 5、站在用户角度,对产品、算法发提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。
1.负责智能理财助理相关质量保障工作,拆解评估对象,深入评估模型,设计评测指标,制定评测方案,自动化评测能力建设及指标解读归因; 2.建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设,包括评测集完备性,合理性建设,评测结果智能化判定。
1、负责MLLM多模态大模型日常评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因; 2、对MLLM基座大模型和应用大模型进行效果评测,支持大量的自研模型迭代与研发,持续跟踪前沿发展,并进行竞品对比; 3、构建短视频、直播等业务域场景的评测体系,支持各业务域的评测能力; 4、探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护; 5、提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表; 6、站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。
1、负责LLM大语言模型日常评测工作和评测体系建设,包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因; 2、以算法手段,对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测,持续跟踪行业前沿发展,并进行竞品对比; 3、从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准,包括通用能力、智能应用,如Agent; 4、探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护; 5、提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表; 6、站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。