快手大模型评测工程师
任职要求
1、本科及以上学历,计算机、人工智能、大数据、统计等相关专业优先; 2、熟悉Transformer、DiT、CLIP、VAE、Diffusion Models等生成式AI模型基本原理,对大模型技术有热情和探索精神; 3、具备良好的数据化思维,能够基于数据分析结果给出分析结论; 4、良好的沟通能力和团队协作精神,严谨的工作态度与高质量…
工作职责
1、参与快手大模型(包括不限于大语言模型,文生图模型,文生视频模型和多模态大模型)日常评测工作和评测体系建设; 2、参与评测方案的持续迭代和优化,通过Prompt工程、自训练算法模型、NLP模型等手段,建设提升大模型评测能力; 3、参与快手大模型相关应用的迭代和效果优化,调研行业先进AI技术,并推动落地在实际项目中; 4、与相关上下游团队密切配合,评估模型效果、给出迭代建议、明确优化方向,从评测视角持续帮助模型能力提升。
1、负责大模型(包括不限于T2V、I2V、MLLM模型)评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告; 2、参与评测相关自动化评测工具开发及维护,最大化提高评测效率; 3、以算法手段,对基座大模型和AI Native应用进行分阶段、端到端评测; 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设; 5、站在用户角度,对产品、算法发提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。
1.负责智能理财助理相关质量保障工作,拆解评估对象,深入评估模型,设计评测指标,制定评测方案,自动化评测能力建设及指标解读归因; 2.建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设,包括评测集完备性,合理性建设,评测结果智能化判定。
1、负责MLLM多模态大模型日常评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因; 2、对MLLM基座大模型和应用大模型进行效果评测,支持大量的自研模型迭代与研发,持续跟踪前沿发展,并进行竞品对比; 3、构建短视频、直播等业务域场景的评测体系,支持各业务域的评测能力; 4、探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护; 5、提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表; 6、站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。
1、负责LLM大语言模型日常评测工作和评测体系建设,包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因; 2、以算法手段,对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测,持续跟踪行业前沿发展,并进行竞品对比; 3、从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准,包括通用能力、智能应用,如Agent; 4、探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护; 5、提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表; 6、站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。