百度大模型评估产品经理(J82456)
任职要求
-有用户行为研究、商业分析等经验优先,有很好的文字品味,洞察能力强,并具有较强的规律总结能力 -对大模型、深度学习、机器学习有较深的认知,对技术敏感 -具…
工作职责
-负责大型语言模型(主要以问答、文创、信息处理等)的评估标准制定,形成具有公信力的行业标准 -高质量评估,并对评估结果进行深入分析洞察,指导模型及系统策略优化 -与产品经理、工程架构、算法研发深度配合,共同推动产品迭代 -跟进市场动态,深入进行竞品分析、评估方案调研 -设计评估工具、自动评估等相关辅助产品,持续提升产品评估效率
-跟踪业界评估平台与工具趋势,能提出先进的评估指标、产品功能、实现方案等,帮助各方更准确理解评估结果 -负责评估产品的设计与持续迭代,深度调研用户需求,提升评估平台的易用性和科学性 -能系统梳理评估全流程,包括样本管理、评测执行、结果可视化、趋势对比和多维度分析等核心功能 -跟进行业领先的评估研究方向,推动开发团队高效的功能落地
-研究与设计大语言模型的评估方法与策略,跟踪业界最新研究进展,探索更高效、精准的评估体系 -参与benchmark的构建、分析和优化评估方法的区分度、稳定性与公允性,涵盖通用能力、垂直领域和多模态等维度 -研究评估自动化前沿方法,参与流程设计与开发 -与模型训练、产品、算法等多团队密切协作,推动评估体系与模型迭代紧密联动
● 构建空间智能(世界模型,当前高德世界模型业内 sota) Benchmark: 从高德海量的历史行为数据中,提炼出评估模型“空间推理能力”、“多地点规划能力”、“地理常识”的黄金测试集(Golden Set),建立对标业内顶级模型的客观评测体系; ● 复杂推理链数据生产: 设计并生产针对导航规划的思维链数据。不仅告诉模型“走哪条路”,还要通过数据教会模型“为什么要走这条路(考虑红绿灯、天气、临时封路)”,提升模型的可解释性; ● 合成数据探索: 利用高德的仿真引擎生成极端场景(长尾路况、复杂立交桥)的合成数据,用于训练模型的鲁棒性,弥补真实数据的不足; ● 数据飞轮建设: 设计从用户反馈(如“用户偏航”、“手动切换路线”)自动转化为模型负样本的闭环流程。
1、产品战略与规划: 深入洞察AIGC行业趋势、用户需求和竞争格局,负责AI图像生成模型及相关应用功能(Web & App)的中长期产品规划和迭代路线图; 2、核心功能与体验设计: 负责AI图像生成核心功能的完整生命周期,通过提升模型的可控性、表现力和易用性,系统性地优化用户创作体验,并探索与定义前沿的AI原生交互模式; 3、一体化工作流构建: 规划并推动图像与视频生成工作流的深度整合方案,打造连贯、高效的一体化创作体验,构建平台的核心竞争壁垒; 4、模型效果定义与驱动: 与算法团队紧密协作,将用户场景和产品需求,转化为清晰、可量化的模型效果评估标准。通过建立评测体系和反馈闭环,持续驱动算法模型在美学、可控性、真实感等方面的迭代精进; 5、数据驱动与用户洞察: 深度挖掘用户行为数据,结合定性/定量的用户研究和A/B测试,科学地评估产品表现,精准洞察用户核心意图与痛点,发现增长机会并驱动产品决策; 6、跨团队协同与项目管理: 作为项目核心,高效地与算法、工程、设计、运营、法务等团队沟通协作,确保产品高质量、按时交付,并达成预期的业务和数据目标。