快手音视频大模型评测工程师
任职要求
1、本科及以上学历,计算机、人工智能、机器学习等相关专业优先,有测试开发或AI方向经验; 2、熟练使用 Python 和 JavaScript,有扎实的工程能力和编程经验,能够自主分析和解决技术问题;熟悉常见深度学习框架(如 PyTorch、TensorFlow); 3、熟悉LLM及MLLM基本原理,具备音视频领域基础知识,具备良好的数据化思维; 4、掌握深度学习或机械学习相关基础…
工作职责
1、参与视频处理、音频处理等场景下的大模型评测体系建设(包含评测方法和评测指标),支持模型迭代和优化,形成从评测到优化的完整闭环; 2、迭代模型评测测试集与Benchmark,利用评测数据驱动算法迭代,提升模型评测效率,更主动牵引模型优化; 3、参与音视频质量评估模型的训练、优化及自动化评估方案的落地,推动评测结果在实际业务中的应用; 4、分析评测结果,挖掘模型潜在瓶颈并提出改进建议,持续提升模型质量与用户体验; 5、与音视频算法模型团队合作,不断改进模型效果、性能、稳定性。
1.负责AI产品在音视频通话场景下,大模型对话效果的评测体系构建,包括评测标准和验证机制建设,对齐评测标准和用户主观体感; 2.负责开源音视频评测集的调研、特定任务下内部评测集的设计和迭代; 3.探索验证机制的优化和提效,主观客观评估方案持续迭代; 4.内外部的音视频通话大模型产品对比评测能力的建设和维护。
1.负责AI产品在音视频通话场景下,大模型对话效果的评测体系构建,包括评测标准和验证机制建设,对齐评测标准和用户主观体感; 2.负责开源音视频评测集的调研、特定任务下内部评测集的设计和迭代; 3.探索验证机制的优化和提效,主观客观评估方案持续迭代; 4.内外部的音视频通话大模型产品对比评测能力的建设和维护。
1、设计与研发LLM、VLM及音视频的大模型评测体系,支持大量的模型迭代与研发; 2、构建业务域场景的评测体系,支持各业务域的评测能力; 3、负责设计整体的评测体系、框架、以及大规模快速的分布式评测; 4、研发大模型评测框架与平台,能够可视化支持各种类型的评测。

1. 负责智能互联多模态算法测试,熟悉算法工程全链路评测,可以独立设计如图像处理算法(如目标检测、图像识别、OCR等)的评测方案,数据集,评测工程等,确保算法精度与性能符合需求; 2. 建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设,包括评测集完备性,合理性建设,评测结果智能化判定,能够基于业务需求设计评测方案,开展多维度模型评估,输出专业评测报告; 3. 追踪大模型方向前沿进展,积极主动地学习和探索新的评测及分析的方法和技术。主导项目全链路质量保障和风险识别工作,搭建质量技术保障体系、制定质量保障规范、推进测试工作执行; 4. 协同项目中多角色、多合作团队形成积极有效的沟通和互动,驱动问题解决,保障交付质量。主动创新,通过技术手段解决质量保障工作中的复杂技术问题,提升测试效能、加深质量工作技术积累。