快手大语言模型评测工程师

社招全职3-5年D139172025-07-17地点：北京状态：招聘

扫码手机上打开

任职要求

1、本科及以上学历，计算机、通信、人工智能、大数据、统计等相关专业优先；
2、优秀的代码基础，至少掌握一门高级语言， 包括但不限于Python、C/C++、 Java；
3、具备良好的数据化思维，能够基于数据分析结果给出分析结论，熟悉ACC、AUC、F1、recall等基本的模型评估指标计算方式；
4、具备良好的沟通能力和团队协作精神，严谨的工作态度与高质量意识，逻辑清晰、善于分析与总结，对大模型技术有深厚的热情和探索精神；
5、具备良好的视野，善于学习新的知识、阅读论文、动手能力强、有…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责LLM大语言模型日常评测工作和评测体系建设，包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行，并输出专业评测报告，深度参与算法效果分析、挖掘问题归因；
2、以算法手段，对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测，持续跟踪行业前沿发展，并进行竞品对比；
3、从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准，包括通用能力、智能应用，如Agent；
4、探索智能、高效的模型自动化评估方案，参与自动化评测工具设计、开发及维护；
5、提出更好的Benchmark，定义模型能力，定义AGI，并在相关会议或期刊发表；
6、站在用户角度，对产品、算法提出建设性的意见，在评测参与的各个流程中以用户视角保证产品体验。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大数据+

Python+

C+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

【留用实习】大模型评测工程师

实习J1017

1、参与快手大模型（包括不限于大语言模型，文生图模型，文生视频模型和多模态大模型）日常评测工作和评测体系建设； 2、参与评测方案的持续迭代和优化，通过Prompt工程、自训练算法模型、NLP模型等手段，建设提升大模型评测能力； 3、参与快手大模型相关应用的迭代和效果优化，调研行业先进AI技术，并推动落地在实际项目中； 4、与相关上下游团队密切配合，评估模型效果、给出迭代建议、明确优化方向，从评测视角持续帮助模型能力提升。

更新于 2025-05-19北京

大模型评测工程师

校招J1017

更新于 2025-08-04北京

大模型评测工程师(J17932)

社招3年以上

1. 负责大语言模型（LLM）及ASR（语音识别）、TTS（语音合成）、NLU（自然语言理解）等模块的评测体系构建，包括效果评估、功能验证、边界场景测试等。 2. 设计多维度评测方案，制定自动化评测工具开发策略，提升评测效率与覆盖率。 3. 深入分析模型输出结果，定位性能瓶颈并提出优化建议，推动算法迭代。 4. 与算法、产品、数据团队协作，输出可量化的评测报告，指导模型部署与应用。 5. 持续跟踪行业最新评测方法（如Prompt Engineering、红队测试等），探索创新评测范式

更新于 2025-04-25上海

通义实验室-大模型评测工程师-语音实验室

社招3年以上技术类-算法

1. 针对语音通用大模型，设计和建设规划科学、全面的评估体系，涵盖评估指标与具体方法。 2. 基于大模型评测，评估不同算法/数据对于模型在不同能力上的效果，指导模型和数据选型。

更新于 2025-10-18北京|杭州