logo of wondershare

万兴科技高级大模型产品评测经理

社招全职地点:长沙状态:招聘

任职要求


1,具备创意理解和评估能力,有一定的艺术审美能力,重视内容质量的主观评估。
2,深入理解用户场景,能将业务需求和用户需求转化为评测维度、量化指标的的能力。
3,能将质量和效果要求拆解成数据指标,能挖掘出测评数据中有效数据,驱动模型不断迭代。
4,了解扩散模型、Transformer、跨模态对齐等主流大模型架构以及能力和效果边界

工作职责


1,统筹测评体系及流程搭建:包含需求分析、评测标准、测试集构建、问题定位、Badcase回流、分析优化验证闭环流程标准;
2,效果牵引模型创意度方向:动态构建效果评估体系,提炼用户需求如面部表情、手部动作难点为关键指标;指导模型从基础质量提升到生成创意度、情感传达,并持续与行业对标,确保效果竞争力。
3,技术工具平台统筹: 主导自动化测评平台建立,支持批量测试用例执行、数据采集、可视化分析等;
建立完善指标管理体系,包含基础质量、创意指标、业务指标等多层次指标体系。
4,统筹评测小组工作,完成各模型迭代所需评测任务支持,牵引模型正向迭代。
包括英文材料
Transformer+
大模型+
相关职位

logo of liauto
社招3年以上自动驾驶

完成下一代自动驾驶产品设计和交付,负责模型能力训练、人机交互方案设计、功能体验提升等。 与研发团队紧密合作制定自动驾驶产品的训练策略,包括但不限于数据准备、模型微调、强化学习等,确保模型在各应用场景下的性能和效率。 负责自动驾驶产品的评测和对标,指导自动驾驶能力的提升和迭代。 跟踪最新的人工智能技术和行业趋势,评估其对产品的影响,并提出相应的产品改进建议。

logo of bytedance
社招A29639

1、负责抖音AI分身大模型效果评测的体系设计、执行与结论分析,提出有价值的改进建议,进而提升大语言模型效果与应用体验; 2、评测的体系设计:充分理解用户需求,明确评测目标,制定合理的评测标准,协同评测团队一起建设科学、公允、客观的大模型效果评测体系; 3、评测的落地执行:能统筹规模化评测团队进行人工评测,能协同算法构建自动化评测能力; 4、评测的结论分析:能给出清晰、有逻辑的评测结论,并从模型效果优化视角给出优化建议。

更新于 2024-11-20
logo of bytedance
社招3-5年A73343

1、效果标准制定:基于业务场景研究及语料分析,定义业务场景的标准及理想态效果; 2、评测体系建立:建立科学、公允、客观的大模型评测体系,帮助发现和分析问题,推动模型优化; 3、策略分析:结合用户洞察、行业分析、实验数据,深化评测分析,并探索优化策略,并推动产品研发迭代方案; 4、语料定义与生产:基于效果问题,定义高质量模型语料,协同标注团队交付标注结果;与算法团队协作,推动模型迭代。

更新于 2025-04-29
logo of bytedance
社招3-5年A257272

1、效果标准制定:基于业务场景研究及语料分析,定义业务场景的标准及理想态效果; 2、评测体系建立:建立科学、公允、客观的大模型评测体系,帮助发现和分析问题,推动模型优化; 3、策略分析:结合用户洞察、行业分析、实验数据,深化评测分析,并探索优化策略,并推动产品研发迭代方案; 4、语料定义与生产:基于效果问题,定义高质量模型语料,协同标注团队交付标注结果;与算法团队协作,推动模型迭代。

更新于 2024-12-04