美团AI生产力评测产品经理(欢迎算法/工程转型)
任职要求
1. 本科及以上学历,1年以上大模型评测或智能体应用落地相关经验。 2. 追求评测方案的科学性与细节完备性,并对新范式保持高敏感,关注 Claude Code / OpenClaw 等 Agent 工具链演进,并能转化为相应评测策略。 3. 对评测、观测、数据闭环有直觉,…
工作职责
1. Agent能力评测体系设计:围绕 OpenClaw、Claude Code 等主流 Agent 框架,设计并落地适配长程任务场景的评测体系,确保 Agent 在真实约束下的交付稳定性与可度量性。 2. 评测流程与资源建设:设计 Coding、数据分析等核心生产力场景的端到端评测流程,搭建自动化评测数据生产与自动化 Rubrics 生成的标准化 pipeline;同时建设具备强技术背景的专家标注资源池,确保 Case 评审、效果判定等关键环节的专业度与一致性。 3.数据闭环与模型策略驱动:将评测数据转化为模型迭代的策略输入,建立"评测→归因→策略建议→效果验证"的数据驱动闭环,推动 Agent 能力持续提升形成飞轮。 4.前沿框架跟踪与评测策略适配:持续跟踪 OpenClaw、Claude Code 及行业前沿 Agent 框架的能力演进与架构变化,及时调整评测策略与度量标准,确保评测体系与 Agent 技术范式同步迭代。
1.负责闪购商品信息体系建设方向产品、策略能力建设。 2.针对商品信息在闪购不同的应用场景(商家、用户、平台),建设完善的商品CPV信息体系,确保平台标准化的商品信息在应用侧的覆盖率。 3.对标行业,深入研究行业商品信息管理、治理的模式,对标杆有了解,产品设计上具有高扩展性。 4.能够熟练运用AI的生产力,针对负责方向的问题提供高效的AI解决方案,加速产品功能及策略的优化和迭代。 5.深入理解上下游链路,与业务、研发等部门人员高效沟通、紧密合作,制定合理的落地节奏。

团队介绍: 我们在做“AI 在金融投顾全链路的落地”,面向投研、运营、产品、用户等角色,打造生产级的AI投顾体系,为AIME投顾机器人业务提供端到端提效能力:从金融行情解读与投研报告生成、用户投顾需求识别与澄清、问答话术生成与优化、投研知识库构建与更新,到 问答精准度校验与合规审核,形成可规模化复用的 AI 投顾生产力体系。团队强调“真实可用而非玩具 Demo”,以实现企业级金融投顾服务为标准,注重可靠性、合规性、可评测性与持续迭代能力,目标是把投顾链路里的高频问答、知识库更新、需求响应等任务做到稳定、可控、可交付。 岗位方向:多模态大模型 × Agent,聚焦 投研问答 / 知识库构建 / 金融内容生成把多模态大模型的细粒度理解能力与 Agent 的工具使用、任务规划、信息检索与交互能力深度结合,构建金融投顾垂类下的Agent系统:会检索金融行情、能解读投研报告、能总结用户投顾需求、能优化问答话术、能对齐金融合规标准与规范,并持续在AIME投顾机器人真实业务中提升问答精准度与用户体验。 工作内容: 1. 聚焦金融投顾全链路提效场景,负责 多模态理解 + Agent 相关产品设计与落地,覆盖投研问答、知识库构建、用户需求识别、问答话术生成与校验等核心任务; 2. 构建生产级投顾Agent能力:金融信息检索与整合、投研内容结构化解析、用户需求拆解与响应、问答证据归因与可追溯引用、长周期投顾任务规划与优化等; 3. 深入研究多模态大模型与 LLM 的预训练/后训练技术(SFT、偏好优化/RL 等),在 金融数据配比、训练范式、模型适配与推理策略 上探索最佳实践,推动AIME投顾机器人问答效果显著提升; 4. 设计面向金融投顾垂类的评测与对齐体系:包括 问答精准度、金融事实一致性、合规性、稳定性、响应速度 等指标,持续提升AIME机器人的可控性与可交付性; 5. 与算法、研发、运营、合规团队紧密协作,推动AI能力落地到AIME投顾机器人产品链路中,实现可持续迭代与规模化应用。
● 我们正在寻找一位懂内容、爱旅行、对“用AI创造美好生活”充满热情的产品人,加入我们以用户内容体验为核心驱动力的先锋团队,一起为用户打造降低决策成本、让旅行变得更轻松有趣的内容体验。 ● 你将负责: ● 迭代AI内容生产流程(内容结构模版、Prompt策略、人机协作SOP、自动化质量评测),优先落地1-2个高价值旅行场景。 ● 与算法/工程共建检索增强与知识库,提升准确性与可解释性。 ● 定义并拉升内容消费的核心指标:曝光→CTR→阅读完成率→一键使用率→收藏/分享;过程指标含可用率、事实错误率、合规通过率、生成成本/条与时延;形成每周评测与A/B报告。