logo of tencent

腾讯元宝-大模型评测产品经理

社招全职1年以上元宝产品地点:北京状态:招聘

任职要求


1.本科及以上学历,计算机科学、人工智能、数据科学、语言学或相关专业优先;
2.熟悉 Python / LLM API / LangChain 流程,有独立搭建自动评估或数据分析管线经验;
3.有 benchmark 构建或论文发表经验(参与自动评估、评测集复现或指标体系设计)者优先;
4.熟悉 AI 搜索、对话评估、生成质量、语音、VLM 等领域评测或策略者优先;
5.具备 用户行为数据分析能…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.自动评估体系建设:设计并搭建大模型自动评估体系,覆盖通用能力及专项能力(如推理、写作、语音、VLM 等);构建评测指标体系与自动化评测流程,推动评测体系标准化、模块化、可扩展化;
2.Benchmark 研究与落地:跟踪国内外前沿大模型评测方法与 Benchmark,研究其评测维度与自动化机制;复现与改造高质量评测集,结合业务场景定制评测任务,确保评测的真实性与可复现性;
3.模型效果分析与策略优化:定期对不同版本模型进行系统评测与对比,输出详细分析报告,识别模型优势与薄弱点;针对记忆、写作、语音、多模态(VLM)等专项能力,设计细粒度评测指标与分析策略,支撑模型迭代方向;
4.用户数据分析与体验优化:持续监测与分析真实用户交互数据,挖掘模型表现的 badcase 与典型问题;与算法及产品团队协作,将用户侧问题转化为可量化的评测指标与优化方案;建立用户体验反馈与评测体系联动机制,推动模型效果持续提升与体验闭环优化;
5.跨团队协作与产品规划:与算法、工程、产品团队紧密配合,定义评测需求与指标体系,推动自动评测体系在实际业务与模型研发中的落地,形成评测 → 分析 → 优化的完整闭环。
包括英文材料
学历+
数据科学+
Python+
还有更多 •••
相关职位

logo of tencent
社招1年以上元宝产品

1.自动评估体系建设:设计并搭建大模型自动评估体系,覆盖通用能力及专项能力(如推理、写作、语音、VLM 等);构建评测指标体系与自动化评测流程,推动评测体系标准化、模块化、可扩展化; 2.Benchmark 研究与落地:跟踪国内外前沿大模型评测方法与 Benchmark,研究其评测维度与自动化机制;复现与改造高质量评测集,结合业务场景定制评测任务,确保评测的真实性与可复现性; 3.模型效果分析与策略优化:定期对不同版本模型进行系统评测与对比,输出详细分析报告,识别模型优势与薄弱点;针对记忆、写作、语音、多模态(VLM)等专项能力,设计细粒度评测指标与分析策略,支撑模型迭代方向; 4.用户数据分析与体验优化:持续监测与分析真实用户交互数据,挖掘模型表现的 badcase 与典型问题;与算法及产品团队协作,将用户侧问题转化为可量化的评测指标与优化方案;建立用户体验反馈与评测体系联动机制,推动模型效果持续提升与体验闭环优化; 5.跨团队协作与产品规划:与算法、工程、产品团队紧密配合,定义评测需求与指标体系,推动自动评测体系在实际业务与模型研发中的落地,形成评测 → 分析 → 优化的完整闭环。

更新于 2025-11-08深圳
logo of tencent
社招3年以上元宝产品

1.质量标准制定:负责制定教育类大模型的质量标准和评估体系,涵盖问答生成的准确性、流畅性、合理性等维度,确保AI生成内容在教育场景下的高质量与高准确性; 2.生成内容的评测与优化: 基于用户反馈、数据分析等手段,组织评测团队对AI生成的教育内容进行定期评测,分析结果并与技术团队合作,推动模型的不断优化与进步; 3.模型智能提升策略: 制定大模型在教育领域整体的智能提升策略,协调跨部门资源,推动AI大模型在教育应用中的深度融合与持续创新; 4.用户反馈与需求挖掘: 通过数据分析、用户调研等手段,挖掘教育产品用户的需求与痛点,优化大模型的生成内容与互动体验; 5.跨部门协作与项目推进: 与研发、数据科学、教育专家等团队密切协作,确保AI的质量标准和优化方案能够高效落地。

更新于 2025-10-23深圳
logo of tencent
社招3年以上元宝产品

1.质量标准制定:负责制定教育类大模型的质量标准和评估体系,涵盖问答生成的准确性、流畅性、合理性等维度,确保AI生成内容在教育场景下的高质量与高准确性; 2.生成内容的评测与优化: 基于用户反馈、数据分析等手段,组织评测团队对AI生成的教育内容进行定期评测,分析结果并与技术团队合作,推动模型的不断优化与进步; 3.模型智能提升策略: 制定大模型在教育领域整体的智能提升策略,协调跨部门资源,推动AI大模型在教育应用中的深度融合与持续创新; 4.用户反馈与需求挖掘: 通过数据分析、用户调研等手段,挖掘教育产品用户的需求与痛点,优化大模型的生成内容与互动体验; 5.跨部门协作与项目推进: 与研发、数据科学、教育专家等团队密切协作,确保AI的质量标准和优化方案能够高效落地。

更新于 2025-10-23北京
logo of tencent
社招5年以上CSIG产品

1.负责元宝和QQ浏览器AI搜索产品规划和建设,包括需求分析、功能设计、迭代优化及效果评估,打造智能搜索体验; 2.分析用户行为数据与反馈,挖掘搜索场景痛点,设计元宝和QQ浏览器特色的AI搜索核心功能; 3.探索AI大模型前沿技术在搜索场景的应用,设计浏览器中的创新功能; 4.构建AI搜索效果评估体系,通评估评测、用户调研等方式验证功能效果,持续优化搜索体验与商业价值; 5.跨部门协同模型团队,协调技术、数据、设计、运营等团队,推动产品功能高效交付,确保技术方案与业务目标对齐。

更新于 2025-08-07北京