美团大模型应用评测算法工程师

社招全职1年以上核心本地商业-基础研发平台2025-05-26地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1. 计算机、数学、统计学或相关专业的硕士、博士，有一年以上大模型应用、训练、评测经验。
2. 熟悉Python等编程语言，具有良好的编码习惯和工程能力，熟悉PyTorch等主流框架，如果能熟练使用Hive、Spark等大数据处理工具更佳。
3. 具有广阔的技术视野、良好的逻辑分析和表达能力，紧跟领域前沿，对解决具有挑战性问题能够充满热情，善于通过创造性的方法解决高模糊度、高复杂的实际问题…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

参与语言大模型、视觉大模型、语音大模型、多模态大模型的应用评测与研究工作，具体工作内容包括但不限于：

- 从大模型应用视角出发，建设科学、全面的大模型评测体系，制定并实施评测标准与评测方案。
- 对数据进行处理、理解，建设高质量数据pipeline，并基于科学、全面的评估体系构建数据集，系统评估模型能力，产出评测报告，指引大模型相应能力的提升。
- 利用大模型辅助、替代人工标注，准确、高效的进行半自动化、自动化的模型评测，降低评测成本、提升评测效率。
- 利用大模型进行自动化的Red Team，系统的发现9.11和9.8谁大答错等典型模型能力短板，以及模型发生涉政涉黄涉及未成年人等不当回复的风险。
- 对模型评测中发现的模型能力短板、模型能力变化、不符合认知的异常进行研究分析，产出研究分析结论，指引大模型相应能力的提升。具体研究项包括不限于数据、模型结构、训练方式对各类模型能力的影响，以数据相关研究为例，包括不限于研究不同数据类型、不同数据配比、不同数据加入时机、不同数据规模等变量对各类模型能力的影响。
- 紧密关注大模型方向的前沿技术进展，积极主动地学习和探索新数据分析、模型训练以及模型评测方法。 
- 紧密关注大模型应用落地的行业最新进展，结合行业进展思考大模型评测、训练的发展趋势，对模型评测体系、机制进行迭代。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

Python+

编程规范+

PyTorch+

Hive+

还有更多 •••

登录查看完整学习资料

相关职位

多模态世界模型评测算法工程师-Top Seed

校招A110771

团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、建立下一代多模态模型评测体系，引导模型向AGI的方向发展：创建针对推理与交互的下一代多模态模型评测Leaderboard，包括而不限于图像理解，视频理解评估、视频流式、多模态交互评估、视觉CoT评估、世界模型评估方法，GUI/游戏等虚拟世界的通用多模态Agent评估方法； 2、对数据敏感，能对构造评测集数据有一些自己的深入的见解；根据数据的需求和用途，为数据集标准环节制定详实、全面、可执行的标准；参与构造可自动化的数据Pipeline，对数据集阶段性质检，迭代标注标准； 3、探索多模态大模型能力边界：追踪业界对于模型能力的边界拓展进程，持续迭代复杂度更高的评测集合，防止基准测试饱和模型过拟合； 4、优化评测工程链路与评测手段：探索自动化评测任务构造和自动化评估方法，提升模型评测效率。

更新于 2025-07-15北京

大模型算法评测工程师

社招1年以上质量管理类

1、与产品及模型团队紧密协作，设计完善大模型与 AI 应用评测标准； 2、分析模型表现，定位性能瓶颈或安全风险，向团队输出优化建议； 3、开发维护自动评测工具、可视化面板等监控机制； 4、协助数据收集与标注，确保评测数据的质量和可信度； 5、规范众包标注、人员管理及质量控制流程。

上海|北京

AI应用评测系统工程师

社招3年以上核心本地商业-业

负责评估和分析大模型在各种应用场景下的表现，与业务团队配合不断优化提升大模型应用效果。具体工作内容包括但不限于： 1. 负责大模型范式下的数据生产标注和应用场景评测平台建设。 2. 深入理解大模型在搜索、推荐、营销等场景的应用落地，参与业务评测方案的制定与评测数据集的建设。 3. 与各相关部门保持良好沟通，深度参与大模型业务应用落地，为各业务方提供评测及相关的模型分析支持。 4. 追踪大模型方向前沿进展，积极主动地学习和探索新的评测及分析的方法和技术。

更新于 2025-06-03北京

大模型算法质量工程师-智能化方向

校招J1017

1、参与大模型在软件测试领域的探索与落地，包括但不限于：智能测试用例生成、GUI自动化Agent、代码缺陷分析、多模态异常检测等创新方向；  2、推动大模型与质量工程的结合，通过Prompt工程、微调（SFT）、强化学习（RL）等技术优化测试效率和系统稳定性；  3、构建智能化评测体系，参与大模型（LLM、文生图/视频模型）的评测方案设计、效果评估与迭代优化；  4、跟进AI领域前沿技术（如Agent框架、多模态分析、数据飞轮构建），探索在技术风险防控、故障根因定位等场景的应用；  5、与业务测试团队协作，推动算法模型在真实业务测试或模型应用评测场景中的落地与持续迭代。

更新于 2025-10-22北京