百度大模型评估策略PM(J98762)
社招全职ACG地点:北京状态:招聘
任职要求
-本科及以上学历,计算机 / AI / NLP / 数据相关背景优先 -对大模型体系有系统认知,理解不同模型能力与评估边界 -具备较强的工程能力,能独立或主导: -评估 Pi…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-负责大模型评估体系与评估 Pipeline 的设计、开发与持续演进,覆盖 LLM / VLM / Agent 等多种模型形态 深入理解模型能力结构(指令遵循、推理、代码、Agentic、多模态等),设计高区分度、可落地的评估指标与评测方法 构建并维护 模型评估全流程能力,包括但不限于: -评测样本与数据集管理(版本化、标签体系、覆盖度) -自动化评测执行(批量推理、并发、失败重试、成本控制) -评估打分与聚合逻辑(规则 / LLM-judge / 多裁判) -结果可视化、模型横向对比、趋势分析与回归分析 -与模型研发、产品、业务团队协作,帮助各方更准确、可解释地理解模型评估结果
包括英文材料
学历+
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
还有更多 •••
相关职位
实习ACG
-研究与设计大语言模型的评估方法与策略,跟踪业界最新研究进展,探索更高效、精准的评估体系 -对开源benchmark有一定了解,能够独立完成benchmark适配到评估结果分析全流程工作 - 参与自有benchmark的构建、优化评估方法的区分度、稳定性与公允性,涵盖通用能力、垂直领域和多模态等维度 -研究评估自动化前沿方法,参与流程设计与开发 -与模型训练、产品、算法等多团队密切协作,推动评估体系与模型迭代紧密联动
更新于 2025-09-08北京
社招ACG
-研究并实现大语言模型的评估方法与算法策略,持续跟踪业界最新研究进展,提出创新性改进思路,探索更高效、精准的评估体系 -参与并主导 benchmark 的构建与实现,开发工具和流程,系统分析和优化评估方法的区分度、稳定性与公允性,覆盖通用能力、垂直领域与多模态方向 -研究与实现评估自动化方法(如自动化标注、模型对比、在线评测等),参与核心评估框架和平台的设计与研发 -与模型训练、算法、数据、产品等多团队紧密协作,推动评估体系与模型迭代的深度耦合
更新于 2025-08-21北京
社招ACG
-研究并实现大语言模型的评估方法与算法策略,持续跟踪业界最新研究进展,提出创新性改进思路,探索更高效、精准的评估体系 -参与并主导 benchmark 的构建与实现,开发工具和流程,系统分析和优化评估方法的区分度、稳定性与公允性,覆盖通用能力、垂直领域与多模态方向 -研究与实现评估自动化方法(如自动化标注、模型对比、在线评测等),参与核心评估框架和平台的设计与研发 -与模型训练、算法、数据、产品等多团队紧密协作,推动评估体系与模型迭代的深度耦合
更新于 2025-08-21北京