logo of kuaishou

快手多模态大模型评测工程师

社招全职3-5年D13917地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机、人工智能、大数据、统计等相关专业优先;
2、优秀的代码基础,至少掌握一门高级语言, 包括但不限于PythonC/C++、 Java;
3、具备良好的数据化思维,能够基于数据分析结果给出分析结论,熟悉ACC、AUC、F1、recall等基本的模型评估指标计算方式;
4、具备良好的沟通能力和团队协作精神,严谨的工作态度与高质量意识,逻辑清晰、善于分析与总结,对大模型技术有深厚的热情和探索精神;
5、具备良好的视野,善于学习新的知识、阅读论文、动手能力强、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责MLLM多模态大模型日常评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因;
2、对MLLM基座大模型和应用大模型进行效果评测,支持大量的自研模型迭代与研发,持续跟踪前沿发展,并进行竞品对比;
3、构建短视频、直播等业务域场景的评测体系,支持各业务域的评测能力;
4、探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护;
5、提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表;
6、站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。
包括英文材料
学历+
大数据+
Python+
C+
C+++
还有更多 •••
相关职位

logo of bytedance
校招A110771

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、建立下一代多模态模型评测体系,引导模型向AGI的方向发展:创建针对推理与交互的下一代多模态模型评测Leaderboard,包括而不限于图像理解,视频理解评估、视频流式、多模态交互评估、视觉CoT评估、世界模型评估方法,GUI/游戏等虚拟世界的通用多模态Agent评估方法; 2、对数据敏感,能对构造评测集数据有一些自己的深入的见解;根据数据的需求和用途,为数据集标准环节制定详实、全面、可执行的标准;参与构造可自动化的数据Pipeline,对数据集阶段性质检,迭代标注标准; 3、探索多模态大模型能力边界:追踪业界对于模型能力的边界拓展进程,持续迭代复杂度更高的评测集合,防止基准测试饱和模型过拟合; 4、优化评测工程链路与评测手段:探索自动化评测任务构造和自动化评估方法,提升模型评测效率。

更新于 2025-07-15北京
logo of kuaishou
实习J1017

1、参与快手大模型(包括不限于大语言模型,文生图模型,文生视频模型和多模态大模型)日常评测工作和评测体系建设; 2、参与评测方案的持续迭代和优化,通过Prompt工程、自训练算法模型、NLP模型等手段,建设提升大模型评测能力; 3、参与快手大模型相关应用的迭代和效果优化,调研行业先进AI技术,并推动落地在实际项目中; 4、与相关上下游团队密切配合,评估模型效果、给出迭代建议、明确优化方向,从评测视角持续帮助模型能力提升。

更新于 2025-05-19北京
logo of kuaishou
校招J1017

1、参与快手大模型(包括不限于大语言模型,文生图模型,文生视频模型和多模态大模型)日常评测工作和评测体系建设; 2、参与评测方案的持续迭代和优化,通过Prompt工程、自训练算法模型、NLP模型等手段,建设提升大模型评测能力; 3、参与快手大模型相关应用的迭代和效果优化,调研行业先进AI技术,并推动落地在实际项目中; 4、与相关上下游团队密切配合,评估模型效果、给出迭代建议、明确优化方向,从评测视角持续帮助模型能力提升。

更新于 2025-08-04北京
logo of aligenie
社招3年以上技术类-质量保证

1. 负责智能互联多模态算法测试,熟悉算法工程全链路评测,可以独立设计如图像处理算法(如目标检测、图像识别、OCR等)的评测方案,数据集,评测工程等,确保算法精度与性能符合需求; 2. 建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设,包括评测集完备性,合理性建设,评测结果智能化判定,能够基于业务需求设计评测方案,开展多维度模型评估,输出专业评测报告; 3. 追踪大模型方向前沿进展,积极主动地学习和探索新的评测及分析的方法和技术。主导项目全链路质量保障和风险识别工作,搭建质量技术保障体系、制定质量保障规范、推进测试工作执行; 4. 协同项目中多角色、多合作团队形成积极有效的沟通和互动,驱动问题解决,保障交付质量。主动创新,通过技术手段解决质量保障工作中的复杂技术问题,提升测试效能、加深质量工作技术积累。

更新于 2025-11-11杭州