logo of meituan

美团大模型评测产品经理

社招全职核心本地商业-基础研发平台地点:北京 | 上海状态:招聘

任职要求


1.具备较强的产品思维和用户导向,能够深入理解需求并转化为产品的功能和设计。
2.具备数据分析和问题解决的能力,有较强的数据敏感性,善于通过数据总结问题,并提出改进策略。
3.对大模型技术有一定的了解,能够理解和解释技术实现的原理和方法。
4.具备优秀的沟通与协调能力,具备一定的项目管理和团队协作经验,能够高效管理和协调项目资源,有效推动项目的进展。

具备以下条件优先
1.有大模型评测、大模型工具平台、大模型应用产品设计经验优先(C/B不限)。
2.有一定技术背景,或过往经历中与算法密切协同者优先。
3.对大模型有深入了解、成功应用者优先。

工作职责


1.基于市场调研和需求分析,结合算法及工程能力,设计和优化评测社区的功能、架构、交互,并为社区活跃指标负责。
2.结合大模型不同维度的能力和应用场景,模型调用日志等数据分析,优化人机交互的大模型评测策略,提升当前大模型评测的科学性、全面性和置信度。
3.结合主线及专项的评测目标和训练协同方目标,在包括但不限于评测数据建设、高质量用户触达、用户人工评测结果收集等方面完成提效,持续收集用户反馈,迭代指标体系及评估方法。
包括英文材料
数据分析+
大模型+
C+
算法+
相关职位

logo of bytedance
社招A148949

1、负责大模型评测平台的全生命周期的产品规划、设计与推动落地,平台为大模型基座及抖音内各场景效果的评测服务,平台能力包括标准的管理、数据标注/生成、自动投放、智能化评测能力等; 2、深入理解大模型预训练语言模型,与评测团队一起建设科学、公允、客观的大模型评测体系; 3、判断行业发展趋势,结合最前沿的技术和产品形态,打造标杆性的大模型评测产品; 4、探索创新型算法评测方法,包括大模型的自动化标注,对抗模型等能力。

更新于 2024-01-31
logo of bytedance
社招A218409

1、负责豆包应用的评测的体系设计、执行与结论分析,提出有价值的改进建议,进而提升大语言模型效果与应用体验; 2、评测的体系设计:充分理解用户需求,并制定合理的评测标准、题目与指标体系; 3、评测的落地执行:既能统筹规模化运营团队进行人工评测,也能设计Workflow/Agent进行自动评测; 4、评测的结论分析:能给出清晰、有逻辑的评测结论,并从模型视角结出优化建议。

更新于 2025-04-25
logo of bytedance
实习A167400A

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:互娱研发-质量保障部门负责抖音、抖音火山版、今日头条、直播、搜索、剪映等多款产品的质量保障工作,截止2020年8月,抖音连同抖音火山版在内,日活用户超6亿,并继续保持高速增长。加入我们,你会支持包括但不限于上述产品的质量保障工作,共同建立完善的质量保障体系,提升产品质量和效率。 1、参与大模型评测平台的全生命周期的产品规划、设计与推动落地,平台为大模型基座及抖音内各场景效果的评测服务,平台能力包括标准的管理、数据标注/生成、自动投放、智能化评测能力等; 2、深入理解大模型预训练语言模型,与评测团队一起建设科学、公允、客观的大模型评测体系; 3、探索创新型算法评测方法,包括大模型的自动化标注,对抗模型等能力。

更新于 2024-08-09
logo of transsion
社招5年以上

1、深度洞察 C 端用户需求,构建 AI 产品质量评测体系,科学制定评测指标与标准,确保评测项目高效执行,输出专业详尽的评测报告,精准捕捉并提炼用户体验痛点,持续推动 C 端产品用户体验升级。 2、主导大模型在 C 端产品落地的效果评估工作,针对文生文、多模态理解与生成等核心能力展开全面评测,深度分析不同大模型在多元用户需求场景下的性能表现,为大模型的精准落地提供坚实数据支撑。 3、聚焦 AI 产品垂类技能,对算法效果进行迭代评测,通过深度数据分析挖掘优化方向,协同算法团队推进算法优化,实现产品核心功能的持续迭代与性能提升。 4、构建自动化评测方案,紧跟模型能力发展趋势,积极探索全模态评测技术,推动评测体系的智能化、高效化升级,提升整体评测效能。

更新于 2025-06-03