快手大模型评测工程师

社招全职3-5年J00122026-03-16地点：北京状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机、通信、人工智能、大数据、统计等相关专业优先；
2、优秀的代码基础，至少掌握一门高级语言， 包括但不限于Python、C/C++、 Java；
3、具备良好的数据化思维，能够基于数据分析结果给出分析结论，熟悉ACC、AUC、F1、recall等基本的模型评估指标计算方式；
4、具备良好的沟通能力和团队协作精神，严谨的工作态度与高质量意识，逻辑清晰、善于分析与总结，对大模型技术有深厚的热情和探索精神；
5、具备良好的视野，善于学习新的知识、阅读论文、动手能力强、有进取心及抗压能力；
6…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责LLM、VLM、搜索推荐等大模型日常评测工作和评测体系建设，包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告，深度参与算法效果分析、挖掘问题归因；
2、以算法手段，对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测，持续跟踪行业前沿发展，并进行竞品对比；
3、从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准以及评测框架，包括通用能力、智能应用，如Agent、OpenClaw、CoWork等；
4、探索智能、高效的模型自动化评估方案，参与自动化评测工具设计、开发及维护；
5、提出更好的Benchmark，定义模型能力，定义AGI，并在相关会议或期刊发表；
6、站在用户角度，对产品、算法提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大数据+

Python+

C+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

大模型评测工程师

实习阿里巴巴2027

1.开展大模型模型指令遵循、推理、智能体等方向能力评测建设，基于评测的错误类型、分布，能针对性构建高质量数据，提高模型特定表现，并能够通过对数据有效性的评测，验证数据有效性； 2.建设基模及应用在指令遵循、推理、智能体等方向评测维度、指标体系、业务评测集并开展深入的评测分析工作。产出评测报告，学术benchmark等有影响力的创新工作。

更新于 2026-05-19杭州

大模型评测工程师-【可灵AI专项】

社招3-5年J0012

1、负责大模型（包括不限于T2V、I2V、MLLM模型）评测工作和评测体系建设，包括设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告； 2、参与评测相关自动化评测工具开发及维护，最大化提高评测效率； 3、以算法手段，对基座大模型和AI Native应用进行分阶段、端到端评测； 4、参与构建评测Agent工具链、对战平台、模型竞技场、模型效果判别模型、应用数据飞轮等工具链建设； 5、站在用户角度，对产品、算法发提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

更新于 2026-01-22北京

算法/大模型评测工程师

社招1-3年J0012

1、负责快手安全相关大模型、小模型评测工作和评测体系建设，包括设计制定和完善评测方案、评测指标、评测数据集建设和更新、评测执行，并输出专业评测报告； 2、负责模型以及相关管理平台、近线引擎的功能测试、性能测试等质量保障工作和质量保障体系搭建，保障模型本身以及相关平台、引擎的质量和稳定性； 3、参与模型评测相关、质量保障相关自动化工具开发、维护，最大化提高评测、测试效率； 4、与算法模型团队合作，不断改进模型效果、性能、稳定性； 5、跟踪最新的AI评测工具、质量保障手段相关行业趋势，引入行业最佳实践和创新思路。

更新于 2026-01-16北京

音频大模型评测工程师-【可灵AI专项】

社招3-5年J0012

音视频生成大模型评测体系建设与演进及业务保障，负责包括但不限于视频生成大模型中音频生成模块（Audio Gen）及音视频一体化的算法效果。不仅是评测的执行者，更是评测体系的架构师，通过深度的算法归因分析，驱动音频 VAE等核心组件的算法优化和迭代。 1、音视频一体化评测体系建设： 1）音频生成与音频理解相关算法、评测方法及评测指标体系具有深入理解，熟悉常见视频与音频质量评估方法，能够结合业务场景设计合理的评测方案； 2）建立从底层算子（VAE, Latent Space）到上层生成效果的全链路评测标准； 3）定义并量化音画同步性、语义关联度、音频美学表现力等关键维度； 2、Benchmark 与方法论沉淀： 1）构建具有行业领先水平的音频生成 Benchmark，涵盖音乐、环境音、音效（SFX）及人声等； 2）沉淀主客观结合的评测方法论，包括客观指标（FAD、KL Divergence、IS、CLAP Score）与专家级主观评价量表（MOS, MUSHRA）； 3、深度诊断与归因分析：输出专业评测报告，深度分析，定位模型缺陷，如针对音频 VAE 压缩失真、音频扩散模型频谱缺失、相位扭曲等问题进行深度诊断，并给出改进建议； 4、前瞻性调研与实验：持续跟踪 AIGC 领域（如 ElevenLabs、Suno、Stable Audio等）前沿技术动态，将行业最新的模型能力和技术路线转化为可落地的评测方案； 5、评测工具与平台化驱动：参与或主导自动化评测工具与平台的开发，利用技术手段提升大规模音视频数据的评测效率，探索基于大模型的自监督评测（LLM-as-a-judge）等创新手段。

更新于 2026-03-25北京