logo of baidu

百度LLM评估产品PM(J92013)

社招全职ACG地点:北京状态:招聘

任职要求


-计算机科学、人工智能、自然语言处理或相关领域本科及以上学历,硕士优先
-熟悉大模型(LLM/VLM 等)原理和评估流程,具备大模型产品设计或系统实现经验者优先
-精通 Python,熟悉常用原型设计、数据处理/可视化工具
…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


-跟踪业界大模型评估平台与工具的研究与实现进展,设计并研发先进的评估指标、算法和系统方案,提升结果的准确性与可解释性
-参与大模型评估平台的架构设计与持续迭代,负责核心模块(如评测引擎、任务调度、可视化分析)的迭代与优化
系统梳理评估全流程,包括样本管理、评测执行、结果存储与可视化、趋势对比和多维度分析等,形成可扩展的评估工具链
-跟进行业领先的评估研究方向,推动新方法在评估平台中高效落地
-与算法、模型训练、数据等团队紧密协作,确保平台功能满足前沿评估与大规模实验需求
包括英文材料
学历+
NLP+
还有更多 •••
相关职位

logo of baidu
社招ACG

-研究并实现大语言模型的评估方法与算法策略,持续跟踪业界最新研究进展,提出创新性改进思路,探索更高效、精准的评估体系 -参与并主导 benchmark 的构建与实现,开发工具和流程,系统分析和优化评估方法的区分度、稳定性与公允性,覆盖通用能力、垂直领域与多模态方向 -研究与实现评估自动化方法(如自动化标注、模型对比、在线评测等),参与核心评估框架和平台的设计与研发 -与模型训练、算法、数据、产品等多团队紧密协作,推动评估体系与模型迭代的深度耦合

更新于 2025-08-21北京
logo of baidu
社招ACG

-研究并实现大语言模型的评估方法与算法策略,持续跟踪业界最新研究进展,提出创新性改进思路,探索更高效、精准的评估体系 -参与并主导 benchmark 的构建与实现,开发工具和流程,系统分析和优化评估方法的区分度、稳定性与公允性,覆盖通用能力、垂直领域与多模态方向 -研究与实现评估自动化方法(如自动化标注、模型对比、在线评测等),参与核心评估框架和平台的设计与研发 -与模型训练、算法、数据、产品等多团队紧密协作,推动评估体系与模型迭代的深度耦合

更新于 2025-08-21北京
logo of tencent
社招1-5年TEG产品

1.负责LLM及AI搜索能力的模型/策略效果迭代,设计满足用户体验的理想态回复标准,并驱动数据生产和模型训练,达成体验/能力优化目标; 2.设计LLM及AI搜索的模型效果评估体系,进行系统化的效果反馈,质量监控,打造数据飞轮; 3.与上下游模型算法、工程技术、标注交付等团队紧密合作,完成策略迭代、效果评测,共同推进基础模型效果提升和产品化目标达成; 4.负责设计和制定完善的搜索策略评估体系,通过科学的评估方式定位问题并推动优化。

更新于 2025-05-20深圳
logo of baidu
实习ACG

-研究与设计大语言模型的评估方法与策略,跟踪业界最新研究进展,探索更高效、精准的评估体系 -对开源benchmark有一定了解,能够独立完成benchmark适配到评估结果分析全流程工作 - 参与自有benchmark的构建、优化评估方法的区分度、稳定性与公允性,涵盖通用能力、垂直领域和多模态等维度 -研究评估自动化前沿方法,参与流程设计与开发 -与模型训练、产品、算法等多团队密切协作,推动评估体系与模型迭代紧密联动

更新于 2025-09-08北京