荣耀大模型评测产品经理
任职要求
1、技术背景
- 计算机/人工智能相关专业硕士及以上学历,3年以上AI产品经验;
- 熟悉大模型原理(LLM、多模态)、模型部署调试及提示词调优;
2、产品经验
- 有大模型评测体系设计或实践经验;
3、项目管理
- 能独立编写PRD、技术方案,推动复…工作职责
1. 通过分析各类场景特点,制定和拆解出对应的模型指标体系和评测规范; 2. 配合算法团队,构建合理、高效的评测流程和评测工具; 3. 配合测试和标注团队,构建高质量的数据标注体系和线上质量监控体系; 4. 有数据sense,可以基于数据结果分析模型或系统问题,驱动问题优化。
1.基于市场调研和需求分析,结合算法及工程能力,设计和优化评测社区的功能、架构、交互,并为社区活跃指标负责。 2.结合大模型不同维度的能力和应用场景,模型调用日志等数据分析,优化人机交互的大模型评测策略,提升当前大模型评测的科学性、全面性和置信度。 3.结合主线及专项的评测目标和训练协同方目标,在包括但不限于评测数据建设、高质量用户触达、用户人工评测结果收集等方面完成提效,持续收集用户反馈,迭代指标体系及评估方法。
1、负责大模型评测平台的全生命周期的产品规划、设计与推动落地,平台为大模型基座及抖音内各场景效果的评测服务,平台能力包括标准的管理、数据标注/生成、自动投放、智能化评测能力等; 2、深入理解大模型预训练语言模型,与评测团队一起建设科学、公允、客观的大模型评测体系; 3、判断行业发展趋势,结合最前沿的技术和产品形态,打造标杆性的大模型评测产品; 4、探索创新型算法评测方法,包括大模型的自动化标注,对抗模型等能力。
1、负责豆包应用的评测的体系设计、执行与结论分析,提出有价值的改进建议,进而提升大语言模型效果与应用体验; 2、评测的体系设计:充分理解用户需求,并制定合理的评测标准、题目与指标体系; 3、评测的落地执行:既能统筹规模化运营团队进行人工评测,也能设计Workflow/Agent进行自动评测; 4、评测的结论分析:能给出清晰、有逻辑的评测结论,并从模型视角结出优化建议。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:互娱研发-质量保障部门负责抖音、抖音火山版、今日头条、直播、搜索、剪映等多款产品的质量保障工作,截止2020年8月,抖音连同抖音火山版在内,日活用户超6亿,并继续保持高速增长。加入我们,你会支持包括但不限于上述产品的质量保障工作,共同建立完善的质量保障体系,提升产品质量和效率。 1、参与大模型评测平台的全生命周期的产品规划、设计与推动落地,平台为大模型基座及抖音内各场景效果的评测服务,平台能力包括标准的管理、数据标注/生成、自动投放、智能化评测能力等; 2、深入理解大模型预训练语言模型,与评测团队一起建设科学、公允、客观的大模型评测体系; 3、探索创新型算法评测方法,包括大模型的自动化标注,对抗模型等能力。