百度LLM评估策略PM(J92019)
社招全职ACG地点:北京状态:招聘
任职要求
-计算机科学、机器学习、自然语言处理或相关领域硕士及以上学历,或具备同等的科研/工程经验 -对大模型(LLM/VLM 等)原理有深入理解,具备 benchmark 构建、评测研究或相关工程落地经验者优先 -熟悉主流评估方法(如人类偏好评估、自动化指标、Elo/pointwise 等),并能够分析其…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
-研究并实现大语言模型的评估方法与算法策略,持续跟踪业界最新研究进展,提出创新性改进思路,探索更高效、精准的评估体系 -参与并主导 benchmark 的构建与实现,开发工具和流程,系统分析和优化评估方法的区分度、稳定性与公允性,覆盖通用能力、垂直领域与多模态方向 -研究与实现评估自动化方法(如自动化标注、模型对比、在线评测等),参与核心评估框架和平台的设计与研发 -与模型训练、算法、数据、产品等多团队紧密协作,推动评估体系与模型迭代的深度耦合
包括英文材料
机器学习+
https://www.youtube.com/watch?v=0oyDqO8PjIg
Learn about machine learning and AI with this comprehensive 11-hour course from @LunarTech_ai.
https://www.youtube.com/watch?v=i_LwzRVP7bg
Learn Machine Learning in a way that is accessible to absolute beginners.
https://www.youtube.com/watch?v=NWONeJKn6kc
Learn the theory and practical application of machine learning concepts in this comprehensive course for beginners.
https://www.youtube.com/watch?v=PcbuKRNtCUc
Learn about all the most important concepts and terms related to machine learning and AI.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
学历+
还有更多 •••
相关职位
社招ACG
-研究并实现大语言模型的评估方法与算法策略,持续跟踪业界最新研究进展,提出创新性改进思路,探索更高效、精准的评估体系 -参与并主导 benchmark 的构建与实现,开发工具和流程,系统分析和优化评估方法的区分度、稳定性与公允性,覆盖通用能力、垂直领域与多模态方向 -研究与实现评估自动化方法(如自动化标注、模型对比、在线评测等),参与核心评估框架和平台的设计与研发 -与模型训练、算法、数据、产品等多团队紧密协作,推动评估体系与模型迭代的深度耦合
更新于 2025-08-21北京
实习ACG
-研究与设计大语言模型的评估方法与策略,跟踪业界最新研究进展,探索更高效、精准的评估体系 -对开源benchmark有一定了解,能够独立完成benchmark适配到评估结果分析全流程工作 - 参与自有benchmark的构建、优化评估方法的区分度、稳定性与公允性,涵盖通用能力、垂直领域和多模态等维度 -研究评估自动化前沿方法,参与流程设计与开发 -与模型训练、产品、算法等多团队密切协作,推动评估体系与模型迭代紧密联动
更新于 2025-09-08北京
社招1-5年TEG产品
1.负责LLM及AI搜索能力的模型/策略效果迭代,设计满足用户体验的理想态回复标准,并驱动数据生产和模型训练,达成体验/能力优化目标; 2.设计LLM及AI搜索的模型效果评估体系,进行系统化的效果反馈,质量监控,打造数据飞轮; 3.与上下游模型算法、工程技术、标注交付等团队紧密合作,完成策略迭代、效果评测,共同推进基础模型效果提升和产品化目标达成; 4.负责设计和制定完善的搜索策略评估体系,通过科学的评估方式定位问题并推动优化。
更新于 2025-05-20深圳