logo of kuaishou

快手多模态大模型评测工程师

社招全职3-5年J0012地点:北京状态:招聘

任职要求


1、本科及以上学历,计算机、人工智能、大数据、统计等相关专业优先;
2、优秀的代码基础,至少掌握一门高级语言, 包括但不限于PythonC/C++Java;
3、具备良好的数据化思维,能够基于数据分析结果给出分析结论,熟悉ACC、AUC、F1、recall等基本的模型评估指标计算方式;
4、具备良好的沟通能力和团队协作精神,严谨的工作态度与高质量意识,逻辑清晰、善于分析与总结,对大模型技术有深厚的热情和探索精神;
5、具备良好的视野,善于学习新的知识、阅读论文、动手能力强、…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责MLLM多模态大模型日常评测工作和评测体系建设,包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因;
2、对MLLM基座大模型和应用大模型进行效果评测,支持大量的自研模型迭代与研发,持续跟踪前沿发展,并进行竞品对比;
3、构建短视频、直播等业务域场景的评测体系,支持各业务域的评测能力;
4、探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护;
5、提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表;
6、站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。
包括英文材料
学历+
大数据+
Python+
C+
C+++
Java+
还有更多 •••
相关职位

logo of bytedance
校招A110771

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、建立下一代多模态模型评测体系,引导模型向AGI的方向发展:创建针对推理与交互的下一代多模态模型评测Leaderboard,包括而不限于图像理解,视频理解评估、视频流式、多模态交互评估、视觉CoT评估、世界模型评估方法,GUI/游戏等虚拟世界的通用多模态Agent评估方法; 2、对数据敏感,能对构造评测集数据有一些自己的深入的见解;根据数据的需求和用途,为数据集标准环节制定详实、全面、可执行的标准;参与构造可自动化的数据Pipeline,对数据集阶段性质检,迭代标注标准; 3、探索多模态大模型能力边界:追踪业界对于模型能力的边界拓展进程,持续迭代复杂度更高的评测集合,防止基准测试饱和模型过拟合; 4、优化评测工程链路与评测手段:探索自动化评测任务构造和自动化评估方法,提升模型评测效率。

更新于 2025-07-15北京
logo of aligenie
社招2年以上

1. 负责多模态大模型的高质量的数据构造及模型评测工作,与算法团队密切合作,理解算法需求,提供满足算法研发需求的数据; 2. 设计和实现各文生图/文生视频/VLM模型的数据标注生产,并不断优化迭代,高效完成标注和内容生产项目; 3. 构建并维护一套完善的各领域AI数据内容质量管理体系,积极推动组织流程及交付流程优化,全面把控内容质量并对结果负责,并不断进行优化迭代; 4. 开展多模态大模型及应用的评测体系方案建设,能够从各领域专业层面设计专业评测方案、开展专业的评测服务; 5.承担本方向数据处理、数据清洗、数据蒸馏、数据合成等多样数据工程工作。

更新于 2026-03-31杭州
logo of kuaishou
实习J1017

1、参与快手大模型(包括不限于大语言模型,文生图模型,文生视频模型和多模态大模型)日常评测工作和评测体系建设; 2、参与评测方案的持续迭代和优化,通过Prompt工程、自训练算法模型、NLP模型等手段,建设提升大模型评测能力; 3、参与快手大模型相关应用的迭代和效果优化,调研行业先进AI技术,并推动落地在实际项目中; 4、与相关上下游团队密切配合,评估模型效果、给出迭代建议、明确优化方向,从评测视角持续帮助模型能力提升。

更新于 2025-05-19北京
logo of dingtalk
社招3年以上技术类-开发

我们正在寻找一位兼具技术深度与业务洞察力的大模型评测工程师,加入核心AI评测团队。你将主导构建面向真实业务场景的多目标评测体系,基于最新的Agent框架(如SWE-bench、WebArena、GAIA、AgentBench等)对LLM及多模态大模型进行系统性能力评估,并推动评测流程的AI自动化——让评测本身也由AI驱动。你的工作将直接影响模型选型、迭代方向与产品上线决策,是连接算法研发与业务落地的关键枢纽。 一、评测体系设计与方法论建设 设计并持续迭代公司级大模型评测体系,覆盖纯文本LLM(如Qwen、DeepSeek、Claude、GPT系列)与多模态大模型(图文理解、视频分析、音频交互等),建立"指标-方法-数据-工具"四位一体的评估框架。 跟踪国际前沿评测范式:从传统静态Benchmark(MMLU、GSM8K、HumanEval)到动态Agent评测(SWE-bench Verified、WebArena、GAIA、OSWorld),制定与公司业务对齐的评测方法论。 针对Agent场景(多步推理、工具调用、代码生成与执行、浏览器自动化、多智能体协作等),设计多维能力分层的评测方案,覆盖任务完成率、轨迹质量、工具选择准确率、执行效率与成本等关键指标。 二、真实业务驱动的评测数据集构建 深入理解公司核心业务场景(如智能客服、代码助手、文档理解、数据分析、办公自动化等),从中抽象出可量化的评测任务,设计贴近真实使用情况的评测数据集。 主导评测数据集的标注规范制定与质量控制,综合运用人工标注、模型辅助标注与主动学习策略,确保数据集的高质量与持续演进。 建立数据集的版本管理、难度分级与防泄漏机制,避免训练数据污染评测结果。 三、基于Agent框架的多目标任务评测执行 搭建基于主流Agent框架(LangChain/LlamaIndex、AutoGen、CrewAI、OpenAI Agents SDK、MCP协议等)的自动化评测流水线,支持大规模、可复现的模型能力基准测试。 执行多目标联合评测:在单次评测任务中同时考察模型在准确性、鲁棒性、安全性、推理效率、幻觉率、指令遵循度、多语言能力等维度的表现,输出多维度雷达分析。 针对多模态Agent场景,设计跨模态联合评测方案,评估模型在图文混合输入、视频理解与操作、语音交互闭环等复杂任务中的综合表现。 四、AI驱动的评测自动化与报告生成 探索并落地"LLM-as-a-Judge"范式:利用强模型(如Claude Opus、GPT-4o等)作为自动化评判器,结合结构化评分Rubric,实现开放式生成任务的高质量自动打分。 构建AI原生的评测报告生成管线:从原始评测日志到可视化分析报告全流程自动化,包括KPI仪表盘、能力雷达图、回归对比、错误案例分析、改进建议等。 建立CI/CD集成的评测门禁:将评测流程嵌入模型迭代流水线,实现每次模型更新后的自动化回归评测与能力变化预警。 五、跨团队协作与技术输出 与算法团队紧密协作,根据评测结果给出模型优化建议,参与模型选型与版本发布的决策评审。 与产品团队对齐业务需求,将产品侧的定性反馈转化为可量化的评测指标与测试用例。 定期输出行业模型能力竞品分析报告与技术白皮书,建立公司在模型评测领域的技术影响力。

更新于 2026-06-05杭州