logo of baidu

百度大模型评估策略PM(J98762)

社招全职ACG地点:北京状态:招聘

任职要求


-本科及以上学历,计算机 / AI / NLP / 数据相关背景优先
-对大模型体系有系统认知,理解不同模型能力与评估边界
-具备较强的工程能力,能独立或主导:
-评估 Pi…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


-负责大模型评估体系与评估 Pipeline 的设计、开发与持续演进,覆盖 LLM / VLM / Agent 等多种模型形态
深入理解模型能力结构(指令遵循、推理、代码、Agentic、多模态等),设计高区分度、可落地的评估指标与评测方法
构建并维护 模型评估全流程能力,包括但不限于:
-评测样本与数据集管理(版本化、标签体系、覆盖度)
-自动化评测执行(批量推理、并发、失败重试、成本控制)
-评估打分与聚合逻辑(规则 / LLM-judge / 多裁判)
-结果可视化、模型横向对比、趋势分析与回归分析
-与模型研发、产品、业务团队协作,帮助各方更准确、可解释地理解模型评估结果
包括英文材料
学历+
NLP+
还有更多 •••
相关职位

logo of baidu
实习ACG

-研究与设计大语言模型的评估方法与策略,跟踪业界最新研究进展,探索更高效、精准的评估体系 -对开源benchmark有一定了解,能够独立完成benchmark适配到评估结果分析全流程工作 - 参与自有benchmark的构建、优化评估方法的区分度、稳定性与公允性,涵盖通用能力、垂直领域和多模态等维度 -研究评估自动化前沿方法,参与流程设计与开发 -与模型训练、产品、算法等多团队密切协作,推动评估体系与模型迭代紧密联动

更新于 2025-09-08北京
logo of baidu
社招ACG

-研究并实现大语言模型的评估方法与算法策略,持续跟踪业界最新研究进展,提出创新性改进思路,探索更高效、精准的评估体系 -参与并主导 benchmark 的构建与实现,开发工具和流程,系统分析和优化评估方法的区分度、稳定性与公允性,覆盖通用能力、垂直领域与多模态方向 -研究与实现评估自动化方法(如自动化标注、模型对比、在线评测等),参与核心评估框架和平台的设计与研发 -与模型训练、算法、数据、产品等多团队紧密协作,推动评估体系与模型迭代的深度耦合

更新于 2025-08-21北京
logo of baidu
社招ACG

-研究并实现大语言模型的评估方法与算法策略,持续跟踪业界最新研究进展,提出创新性改进思路,探索更高效、精准的评估体系 -参与并主导 benchmark 的构建与实现,开发工具和流程,系统分析和优化评估方法的区分度、稳定性与公允性,覆盖通用能力、垂直领域与多模态方向 -研究与实现评估自动化方法(如自动化标注、模型对比、在线评测等),参与核心评估框架和平台的设计与研发 -与模型训练、算法、数据、产品等多团队紧密协作,推动评估体系与模型迭代的深度耦合

更新于 2025-08-21北京
logo of tencent
社招1-5年TEG产品

1.负责LLM及AI搜索能力的模型/策略效果迭代,设计满足用户体验的理想态回复标准,并驱动数据生产和模型训练,达成体验/能力优化目标; 2.设计LLM及AI搜索的模型效果评估体系,进行系统化的效果反馈,质量监控,打造数据飞轮; 3.与上下游模型算法、工程技术、标注交付等团队紧密合作,完成策略迭代、效果评测,共同推进基础模型效果提升和产品化目标达成; 4.负责设计和制定完善的搜索策略评估体系,通过科学的评估方式定位问题并推动优化。

更新于 2025-05-20深圳