logo of meituan

美团大模型评测框架工程师

社招全职2年以上核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


本科及以上学历,2年以上后端研发经验,能独立负责核心功能开发和架构设计。
精通Python,熟练使用Java,了解C++, JavaScript等多种语言,有扎实的工程能力和编程经验,能够自主分析和解决技术问题
善于拥抱大模型时代的新技术、新工具,提高工作效率。
具备较强的责任意识和执行力,工作边界不设限,能够快速响应需求并解决问题,能够有条理的整理和合并需求。
了解大模型相关基础知识,自驱、持续地学习最前沿的大模型技术,并应用于工作中。

具备以下条件优先
拥有…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责美团基础大模型评测框架和周边生态的开发、维护和能力拓展。
支持文本、多模态、Agent、应用等多个方向的评测框架和平台开发工作。
协同支持整个大模型平台从数据到训练到评测的基础架构标准化建设。
协同开源评测社区建设,打造业界一流的评测框架体系。
包括英文材料
学历+
系统设计+
Python+
Java+
C+++
JavaScript+
大模型+
高并发+
还有更多 •••
相关职位

logo of bytedance
社招A32514

1、设计与研发LLM、VLM及音视频的大模型评测体系,支持大量的模型迭代与研发; 2、构建业务域场景的评测体系,支持各业务域的评测能力; 3、负责设计整体的评测体系、框架、以及大规模快速的分布式评测; 4、研发大模型评测框架与平台,能够可视化支持各种类型的评测。

更新于 2024-09-11北京
logo of kuaishou
社招3-5年J0012

1、负责LLM、VLM、搜索推荐等大模型日常评测工作和评测体系建设,包括但不限于设计制定和完善评测方案、评测指标、评测数据收集和更新、评测执行,并输出专业评测报告,深度参与算法效果分析、挖掘问题归因; 2、以算法手段,对基座大模型、应用大模型以及AI产品进行分阶段、端到端效果评测,持续跟踪行业前沿发展,并进行竞品对比; 3、从可解释性角度探索提出更多更深入的基于模型内在机理的评测基准以及评测框架,包括通用能力、智能应用,如Agent、OpenClaw、CoWork等; 4、探索智能、高效的模型自动化评估方案,参与自动化评测工具设计、开发及维护; 5、提出更好的Benchmark,定义模型能力,定义AGI,并在相关会议或期刊发表; 6、站在用户角度,对产品、算法提出建设性的意见,在评测参与的各个流程中以用户视角保证产品体验。

更新于 2026-03-16北京
logo of alibaba
社招2年以上技术类-数据

作为大模型评测研发工程师,将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发:从评测数据集设计、智能化自动化评估方法探索研究、指标实现,到平台化落地,精准衡量模型能力边界,持续驱动模型语料优化与模型迭代 通用 Benchmark 研发 • 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架; • 研究并实现更贴合业务发展的评测方法与指标,构建高效、可扩展、可复现、可解释的评测引擎 业务领域 Benchmark 构建与评测 • 深入跨境电商各个业务领域,构建领域Benchmark,真实反馈模型业务表现 • 设计场景化评估方案,如RAG、Agent、COT、 In-Context Learning等,并形成端到端评测能力; 评测方法研究 • 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术 • 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议,高效复现SOTA方法,形成可比对可参考的评估系统

更新于 2026-01-27杭州
logo of antgroup
社招3年以上技术类-开发

1.负责智能理财助理相关质量保障工作,拆解评估对象,深入评估模型,设计评测指标,制定评测方案,自动化评测能力建设及指标解读归因; 2.建设通用的基于大模型场景下的模型评估体系、评测框架及基础评测能力的建设,包括评测集完备性,合理性建设,评测结果智能化判定。

更新于 2025-09-18北京