美团大模型评测产品经理
任职要求
1.具备较强的产品思维和用户导向,能够深入理解需求并转化为产品的功能和设计。 2.具备数据分析和问题解决的能力,有较强的数据敏感性,善于通过数据总结问题,并提出改进策略。 3.对大模型技术有一定的了解,能够理解和解释技术实现的原理和方法。 4.具备优秀的沟通与协调能力,具备一定的项目管理和团队协作经验,能够高效管理和协调项目资源,有效推动项目的进展。 具备以下条件优先 1.有大模型评测、大模型工具平台、大模型应用产品设计经验优先(C/B不限)。 2.有一定技术背景,或过往经历中与算法密切协同者优先。 3.对大模型有深入了解、成功应用者优先。
工作职责
1.基于市场调研和需求分析,结合算法及工程能力,设计和优化评测社区的功能、架构、交互,并为社区活跃指标负责。 2.结合大模型不同维度的能力和应用场景,模型调用日志等数据分析,优化人机交互的大模型评测策略,提升当前大模型评测的科学性、全面性和置信度。 3.结合主线及专项的评测目标和训练协同方目标,在包括但不限于评测数据建设、高质量用户触达、用户人工评测结果收集等方面完成提效,持续收集用户反馈,迭代指标体系及评估方法。
1、负责大模型评测平台的全生命周期的产品规划、设计与推动落地,平台为大模型基座及抖音内各场景效果的评测服务,平台能力包括标准的管理、数据标注/生成、自动投放、智能化评测能力等; 2、深入理解大模型预训练语言模型,与评测团队一起建设科学、公允、客观的大模型评测体系; 3、判断行业发展趋势,结合最前沿的技术和产品形态,打造标杆性的大模型评测产品; 4、探索创新型算法评测方法,包括大模型的自动化标注,对抗模型等能力。
1、负责豆包应用的评测的体系设计、执行与结论分析,提出有价值的改进建议,进而提升大语言模型效果与应用体验; 2、评测的体系设计:充分理解用户需求,并制定合理的评测标准、题目与指标体系; 3、评测的落地执行:既能统筹规模化运营团队进行人工评测,也能设计Workflow/Agent进行自动评测; 4、评测的结论分析:能给出清晰、有逻辑的评测结论,并从模型视角结出优化建议。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:互娱研发-质量保障部门负责抖音、抖音火山版、今日头条、直播、搜索、剪映等多款产品的质量保障工作,截止2020年8月,抖音连同抖音火山版在内,日活用户超6亿,并继续保持高速增长。加入我们,你会支持包括但不限于上述产品的质量保障工作,共同建立完善的质量保障体系,提升产品质量和效率。 1、参与大模型评测平台的全生命周期的产品规划、设计与推动落地,平台为大模型基座及抖音内各场景效果的评测服务,平台能力包括标准的管理、数据标注/生成、自动投放、智能化评测能力等; 2、深入理解大模型预训练语言模型,与评测团队一起建设科学、公允、客观的大模型评测体系; 3、探索创新型算法评测方法,包括大模型的自动化标注,对抗模型等能力。
1、深度洞察 C 端用户需求,构建 AI 产品质量评测体系,科学制定评测指标与标准,确保评测项目高效执行,输出专业详尽的评测报告,精准捕捉并提炼用户体验痛点,持续推动 C 端产品用户体验升级。 2、主导大模型在 C 端产品落地的效果评估工作,针对文生文、多模态理解与生成等核心能力展开全面评测,深度分析不同大模型在多元用户需求场景下的性能表现,为大模型的精准落地提供坚实数据支撑。 3、聚焦 AI 产品垂类技能,对算法效果进行迭代评测,通过深度数据分析挖掘优化方向,协同算法团队推进算法优化,实现产品核心功能的持续迭代与性能提升。 4、构建自动化评测方案,紧跟模型能力发展趋势,积极探索全模态评测技术,推动评测体系的智能化、高效化升级,提升整体评测效能。