百度LLM评估产品PM(J92013)
社招全职ACG地点:北京状态:招聘
任职要求
-计算机科学、人工智能、自然语言处理或相关领域本科及以上学历,硕士优先 -熟悉大模型(LLM/VLM 等)原理和评估流程,具备大模型产品设计或系统实现经验者优先 -精通 Python,熟悉常用原型设计、数据处理/可视化工具 …
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-跟踪业界大模型评估平台与工具的研究与实现进展,设计并研发先进的评估指标、算法和系统方案,提升结果的准确性与可解释性 -参与大模型评估平台的架构设计与持续迭代,负责核心模块(如评测引擎、任务调度、可视化分析)的迭代与优化 系统梳理评估全流程,包括样本管理、评测执行、结果存储与可视化、趋势对比和多维度分析等,形成可扩展的评估工具链 -跟进行业领先的评估研究方向,推动新方法在评估平台中高效落地 -与算法、模型训练、数据等团队紧密协作,确保平台功能满足前沿评估与大规模实验需求
包括英文材料
学历+
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
还有更多 •••
相关职位
社招ACG
-研究并实现大语言模型的评估方法与算法策略,持续跟踪业界最新研究进展,提出创新性改进思路,探索更高效、精准的评估体系 -参与并主导 benchmark 的构建与实现,开发工具和流程,系统分析和优化评估方法的区分度、稳定性与公允性,覆盖通用能力、垂直领域与多模态方向 -研究与实现评估自动化方法(如自动化标注、模型对比、在线评测等),参与核心评估框架和平台的设计与研发 -与模型训练、算法、数据、产品等多团队紧密协作,推动评估体系与模型迭代的深度耦合
更新于 2025-08-21北京
社招ACG
-研究并实现大语言模型的评估方法与算法策略,持续跟踪业界最新研究进展,提出创新性改进思路,探索更高效、精准的评估体系 -参与并主导 benchmark 的构建与实现,开发工具和流程,系统分析和优化评估方法的区分度、稳定性与公允性,覆盖通用能力、垂直领域与多模态方向 -研究与实现评估自动化方法(如自动化标注、模型对比、在线评测等),参与核心评估框架和平台的设计与研发 -与模型训练、算法、数据、产品等多团队紧密协作,推动评估体系与模型迭代的深度耦合
更新于 2025-08-21北京
社招1-5年TEG产品
1.负责LLM及AI搜索能力的模型/策略效果迭代,设计满足用户体验的理想态回复标准,并驱动数据生产和模型训练,达成体验/能力优化目标; 2.设计LLM及AI搜索的模型效果评估体系,进行系统化的效果反馈,质量监控,打造数据飞轮; 3.与上下游模型算法、工程技术、标注交付等团队紧密合作,完成策略迭代、效果评测,共同推进基础模型效果提升和产品化目标达成; 4.负责设计和制定完善的搜索策略评估体系,通过科学的评估方式定位问题并推动优化。
更新于 2025-05-20深圳