腾讯元宝-大模型评测产品经理

社招全职1年以上元宝产品2025-11-08地点：北京状态：招聘

扫码手机上打开

任职要求

1.本科及以上学历，计算机科学、人工智能、数据科学、语言学或相关专业优先；
2.熟悉 Python / LLM API / LangChain 流程，有独立搭建自动评估或数据分析管线经验；
3.有 benchmark 构建或论文发表经验（参与自动评估、评测集复现或指标体系设计）者优先；
4.熟悉 AI 搜索、对话评估、生成质量、语音、VLM 等领域评测或策略者优先；
5.具备 用户行为数据分析能…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.自动评估体系建设：设计并搭建大模型自动评估体系，覆盖通用能力及专项能力（如推理、写作、语音、VLM 等）；构建评测指标体系与自动化评测流程，推动评测体系标准化、模块化、可扩展化；
2.Benchmark 研究与落地：跟踪国内外前沿大模型评测方法与 Benchmark，研究其评测维度与自动化机制；复现与改造高质量评测集，结合业务场景定制评测任务，确保评测的真实性与可复现性；
3.模型效果分析与策略优化：定期对不同版本模型进行系统评测与对比，输出详细分析报告，识别模型优势与薄弱点；针对记忆、写作、语音、多模态（VLM）等专项能力，设计细粒度评测指标与分析策略，支撑模型迭代方向；
4.用户数据分析与体验优化：持续监测与分析真实用户交互数据，挖掘模型表现的 badcase 与典型问题；与算法及产品团队协作，将用户侧问题转化为可量化的评测指标与优化方案；建立用户体验反馈与评测体系联动机制，推动模型效果持续提升与体验闭环优化；
5.跨团队协作与产品规划：与算法、工程、产品团队紧密配合，定义评测需求与指标体系，推动自动评测体系在实际业务与模型研发中的落地，形成评测 → 分析 → 优化的完整闭环。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

数据科学+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

AI搜索产品经理

社招5年以上搜索-元宝产品

1.负责元宝和QQ浏览器AI搜索产品规划和建设，包括需求分析、功能设计、迭代优化及效果评估，打造智能搜索体验； 2.分析用户行为数据与反馈，挖掘搜索场景痛点，设计元宝和QQ浏览器特色的AI搜索核心功能； 3.探索AI大模型前沿技术在搜索场景的应用，设计浏览器中的创新功能； 4.构建AI搜索效果评估体系，通评估评测、用户调研等方式验证功能效果，持续优化搜索体验与商业价值； 5.跨部门协同模型团队，协调技术、数据、设计、运营等团队，推动产品功能高效交付，确保技术方案与业务目标对齐。

更新于 2026-02-06北京

元宝-大模型策略产品经理（教育方向）

社招3年以上元宝产品

1.质量标准制定：负责制定教育类大模型的质量标准和评估体系，涵盖问答生成的准确性、流畅性、合理性等维度，确保AI生成内容在教育场景下的高质量与高准确性； 2.生成内容的评测与优化：基于用户反馈、数据分析等手段，组织评测团队对AI生成的教育内容进行定期评测，分析结果并与技术团队合作，推动模型的不断优化与进步； 3.模型智能提升策略：制定大模型在教育领域整体的智能提升策略，协调跨部门资源，推动AI大模型在教育应用中的深度融合与持续创新； 4.用户反馈与需求挖掘：通过数据分析、用户调研等手段，挖掘教育产品用户的需求与痛点，优化大模型的生成内容与互动体验； 5.跨部门协作与项目推进：与研发、数据科学、教育专家等团队密切协作，确保AI的质量标准和优化方案能够高效落地。

更新于 2025-10-23深圳

元宝-大模型策略产品经理（教育方向）

社招3年以上元宝产品

更新于 2025-10-23北京

元宝-大模型评测产品经理

社招1年以上元宝产品

1.自动评估体系建设：设计并搭建大模型自动评估体系，覆盖通用能力及专项能力（如推理、写作、语音、VLM 等）；构建评测指标体系与自动化评测流程，推动评测体系标准化、模块化、可扩展化； 2.Benchmark 研究与落地：跟踪国内外前沿大模型评测方法与 Benchmark，研究其评测维度与自动化机制；复现与改造高质量评测集，结合业务场景定制评测任务，确保评测的真实性与可复现性； 3.模型效果分析与策略优化：定期对不同版本模型进行系统评测与对比，输出详细分析报告，识别模型优势与薄弱点；针对记忆、写作、语音、多模态（VLM）等专项能力，设计细粒度评测指标与分析策略，支撑模型迭代方向； 4.用户数据分析与体验优化：持续监测与分析真实用户交互数据，挖掘模型表现的 badcase 与典型问题；与算法及产品团队协作，将用户侧问题转化为可量化的评测指标与优化方案；建立用户体验反馈与评测体系联动机制，推动模型效果持续提升与体验闭环优化； 5.跨团队协作与产品规划：与算法、工程、产品团队紧密配合，定义评测需求与指标体系，推动自动评测体系在实际业务与模型研发中的落地，形成评测 → 分析 → 优化的完整闭环。

更新于 2026-02-03深圳