快手多模态大模型评测工程师

社招全职3-5年J00122025-12-22地点：北京状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机、人工智能、大数据、统计等相关专业优先；
2、优秀的代码基础，至少掌握一门高级语言， 包括但不限于Python、C/C++、 Java；
3、具备良好的数据化思维，能够基于数据分析结果给出分析结论，熟悉ACC、AUC、F1、recall等基本的模型评估指标计算方式；
4、具备良好的沟通能力和团队协作精神，严谨的工作态度与高质量意识，逻辑清晰、善于分析与总结，对大模型技术有深厚的热情和探索精神；
5、具备良好的视野，善于学习新的知识、阅读论文、动手能力强、…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责MLLM多模态大模型日常评测工作和评测体系建设，包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告，深度参与算法效果分析、挖掘问题归因；
2、对MLLM基座大模型和应用大模型进行效果评测，支持大量的自研模型迭代与研发，持续跟踪前沿发展，并进行竞品对比；
3、构建短视频、直播等业务域场景的评测体系，支持各业务域的评测能力；
4、探索智能、高效的模型自动化评估方案，参与自动化评测工具设计、开发及维护；
5、提出更好的Benchmark，定义模型能力，定义AGI，并在相关会议或期刊发表；
6、站在用户角度，对产品、算法提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大数据+

Python+

C+

C+++

Java+

还有更多 •••

登录查看完整学习资料

相关职位

多模态世界模型评测算法工程师-Top Seed

校招A110771

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、建立下一代多模态模型评测体系，引导模型向AGI的方向发展：创建针对推理与交互的下一代多模态模型评测Leaderboard，包括而不限于图像理解，视频理解评估、视频流式、多模态交互评估、视觉CoT评估、世界模型评估方法，GUI/游戏等虚拟世界的通用多模态Agent评估方法； 2、对数据敏感，能对构造评测集数据有一些自己的深入的见解；根据数据的需求和用途，为数据集标准环节制定详实、全面、可执行的标准；参与构造可自动化的数据Pipeline，对数据集阶段性质检，迭代标注标准； 3、探索多模态大模型能力边界：追踪业界对于模型能力的边界拓展进程，持续迭代复杂度更高的评测集合，防止基准测试饱和模型过拟合； 4、优化评测工程链路与评测手段：探索自动化评测任务构造和自动化评估方法，提升模型评测效率。

更新于 2025-07-15北京

乌鸫科技-大模型评测工程师-图像视频

社招2年以上

1. 负责多模态大模型的高质量的数据构造及模型评测工作，与算法团队密切合作，理解算法需求，提供满足算法研发需求的数据； 2. 设计和实现各文生图/文生视频/VLM模型的数据标注生产，并不断优化迭代，高效完成标注和内容生产项目； 3. 构建并维护一套完善的各领域AI数据内容质量管理体系，积极推动组织流程及交付流程优化，全面把控内容质量并对结果负责，并不断进行优化迭代； 4. 开展多模态大模型及应用的评测体系方案建设，能够从各领域专业层面设计专业评测方案、开展专业的评测服务； 5.承担本方向数据处理、数据清洗、数据蒸馏、数据合成等多样数据工程工作。

更新于 2026-03-31杭州

【留用实习】大模型评测工程师

实习J1017

1、参与快手大模型（包括不限于大语言模型，文生图模型，文生视频模型和多模态大模型）日常评测工作和评测体系建设； 2、参与评测方案的持续迭代和优化，通过Prompt工程、自训练算法模型、NLP模型等手段，建设提升大模型评测能力； 3、参与快手大模型相关应用的迭代和效果优化，调研行业先进AI技术，并推动落地在实际项目中； 4、与相关上下游团队密切配合，评估模型效果、给出迭代建议、明确优化方向，从评测视角持续帮助模型能力提升。

更新于 2025-05-19北京

大模型评测工程师

校招J1017

更新于 2025-08-04北京