美团大模型评测框架工程师

社招全职2年以上核心本地商业-基础研发平台2025-05-12地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

本科及以上学历，2年以上后端研发经验，能独立负责核心功能开发和架构设计。
精通Python，熟练使用Java，了解C++, JavaScript等多种语言，有扎实的工程能力和编程经验，能够自主分析和解决技术问题
善于拥抱大模型时代的新技术、新工具，提高工作效率。
具备较强的责任意识和执行力，工作边界不设限，能够快速响应需求并解决问题，能够有条理的整理和合并需求。
了解大模型相关基础知识，自驱、持续地学习最前沿的大模型技术，并应用于工作中。

具备以下条件优先
拥有…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

负责美团基础大模型评测框架和周边生态的开发、维护和能力拓展。
支持文本、多模态、Agent、应用等多个方向的评测框架和平台开发工作。
协同支持整个大模型平台从数据到训练到评测的基础架构标准化建设。
协同开源评测社区建设，打造业界一流的评测框架体系。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

系统设计+

Python+

Java+

C+++

JavaScript+

大模型+

高并发+

还有更多 •••

登录查看完整学习资料

相关职位

大模型算法评测工程师

社招A32514

1、设计与研发LLM、VLM及音视频的大模型评测体系，支持大量的模型迭代与研发； 2、构建业务域场景的评测体系，支持各业务域的评测能力； 3、负责设计整体的评测体系、框架、以及大规模快速的分布式评测； 4、研发大模型评测框架与平台，能够可视化支持各种类型的评测。

更新于 2024-09-11北京

AI Business-大模型评测高级研发工程师-杭州

社招2年以上技术类-数据

作为大模型评测研发工程师，将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发：从评测数据集设计、智能化自动化评估方法探索研究、指标实现，到平台化落地，精准衡量模型能力边界，持续驱动模型语料优化与模型迭代通用 Benchmark 研发 • 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架； • 研究并实现更贴合业务发展的评测方法与指标，构建高效、可扩展、可复现、可解释的评测引擎业务领域 Benchmark 构建与评测 • 深入跨境电商各个业务领域，构建领域Benchmark，真实反馈模型业务表现 • 设计场景化评估方案，如RAG、Agent、COT、 In-Context Learning等，并形成端到端评测能力；评测方法研究 • 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术 • 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议，高效复现SOTA方法，形成可比对可参考的评估系统

更新于 2025-09-19杭州

蚂蚁集团-大模型评测工程师-蚂小财

社招3年以上技术类-开发

1.负责智能理财助理相关质量保障工作，拆解评估对象，深入评估模型，设计评测指标，制定评测方案，自动化评测能力建设及指标解读归因； 2.建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设，包括评测集完备性，合理性建设，评测结果智能化判定。

更新于 2025-09-18北京

智驾模型评测算法工程师

社招A255087

1. 负责智驾车端模型/云端大模型的算法评测工作，运用数据驱动的方式推动模型持续优化与迭代升级； 2. 搭建车端/云端算法评测框架，建设全面的评测数据体系，保障评测数据的精准性和全面性； 3. 负责仿真评测系统的搭建与完善，构建多场景、多维度的评测指标，确保算法在复杂场景下的稳定性和可靠性； 4. 开发并优化评测相关的算法模型，提升评测系统的效率与准确度，协助建立自动化评测工具链，实现算法评测流程的标准化与自动化； 5. 推动评测工具与平台的持续迭代，支持不同算法模块的快速集成与评估，确保测试工具的扩展性与可用性。根据评测数据与结果，提出算法优化方案，推动算法的快速迭代与性能提升。

更新于 2024-09-12北京|武汉