logo of transsion

传音大模型评测产品经理(J17900)

社招全职5年以上地点:深圳状态:招聘

任职要求


1、本科及以上学历,5 年相关工作经验,熟悉大模型基本原理,或具备大模型相关项目实践经验,对 AI 行业发展动态有敏锐洞察力。
2、深入理解 AI 类产品的能力边界与技术特性,能够精准把握用户需求,具备从用户视角评估产品质量的能力。
3、具备基础自动化技能,熟练掌握 Python 编程,熟悉接口测试流程,可进行简单脚本开发,能够通过自动化手段提升评测效率。
4、熟练使用 Excel,精通各类函数应用,具备高效的数据计算、处理与分析能力,能够从海量数据中提取关键信息。
5、拥有出色的沟通协调能力、严谨的逻辑思维能力与深度数据分析能力,善于发现问题并提出系统性解决方案,具备良好的团队协作精神与项目推进能力。

工作职责


1、深度洞察 C 端用户需求,构建 AI 产品质量评测体系,科学制定评测指标与标准,确保评测项目高效执行,输出专业详尽的评测报告,精准捕捉并提炼用户体验痛点,持续推动 C 端产品用户体验升级。
2、主导大模型在 C 端产品落地的效果评估工作,针对文生文、多模态理解与生成等核心能力展开全面评测,深度分析不同大模型在多元用户需求场景下的性能表现,为大模型的精准落地提供坚实数据支撑。
3、聚焦 AI 产品垂类技能,对算法效果进行迭代评测,通过深度数据分析挖掘优化方向,协同算法团队推进算法优化,实现产品核心功能的持续迭代与性能提升。
4、构建自动化评测方案,紧跟模型能力发展趋势,积极探索全模态评测技术,推动评测体系的智能化、高效化升级,提升整体评测效能。
包括英文材料
学历+
大模型+
Python+
测试流程+
脚本+
Excel+
数据分析+
相关职位

logo of meituan
社招核心本地商业-基

1.基于市场调研和需求分析,结合算法及工程能力,设计和优化评测社区的功能、架构、交互,并为社区活跃指标负责。 2.结合大模型不同维度的能力和应用场景,模型调用日志等数据分析,优化人机交互的大模型评测策略,提升当前大模型评测的科学性、全面性和置信度。 3.结合主线及专项的评测目标和训练协同方目标,在包括但不限于评测数据建设、高质量用户触达、用户人工评测结果收集等方面完成提效,持续收集用户反馈,迭代指标体系及评估方法。

更新于 2025-04-29
logo of bytedance
社招A148949

1、负责大模型评测平台的全生命周期的产品规划、设计与推动落地,平台为大模型基座及抖音内各场景效果的评测服务,平台能力包括标准的管理、数据标注/生成、自动投放、智能化评测能力等; 2、深入理解大模型预训练语言模型,与评测团队一起建设科学、公允、客观的大模型评测体系; 3、判断行业发展趋势,结合最前沿的技术和产品形态,打造标杆性的大模型评测产品; 4、探索创新型算法评测方法,包括大模型的自动化标注,对抗模型等能力。

更新于 2024-01-31
logo of bytedance
社招A218409

1、负责豆包应用的评测的体系设计、执行与结论分析,提出有价值的改进建议,进而提升大语言模型效果与应用体验; 2、评测的体系设计:充分理解用户需求,并制定合理的评测标准、题目与指标体系; 3、评测的落地执行:既能统筹规模化运营团队进行人工评测,也能设计Workflow/Agent进行自动评测; 4、评测的结论分析:能给出清晰、有逻辑的评测结论,并从模型视角结出优化建议。

更新于 2025-04-25
logo of bytedance
实习A167400A

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:互娱研发-质量保障部门负责抖音、抖音火山版、今日头条、直播、搜索、剪映等多款产品的质量保障工作,截止2020年8月,抖音连同抖音火山版在内,日活用户超6亿,并继续保持高速增长。加入我们,你会支持包括但不限于上述产品的质量保障工作,共同建立完善的质量保障体系,提升产品质量和效率。 1、参与大模型评测平台的全生命周期的产品规划、设计与推动落地,平台为大模型基座及抖音内各场景效果的评测服务,平台能力包括标准的管理、数据标注/生成、自动投放、智能化评测能力等; 2、深入理解大模型预训练语言模型,与评测团队一起建设科学、公允、客观的大模型评测体系; 3、探索创新型算法评测方法,包括大模型的自动化标注,对抗模型等能力。

更新于 2024-08-09