阿里巴巴智能算法产品事业部-技术战略发展部 - ToC产品运营（评测方向）-北京/杭州

社招全职3年以上2026-07-03地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

- 至少 3 年聚焦在搜索 / 推荐 / 内容质量 / 评测体系，有团队管理经验优先；
  - 深入理解电商场景的搜推业务链路（query 理解、召回、粗排、精排、重排、多目标）以及对应的质量痛点；
  - 主导过 0→1 或 1→10 的评测体系搭建，包括标准制定、流程沉淀、平台化建设；
  - 熟悉 NDCG / GSB / side-by-side / preference labeling等主流主观评测方法，能根据业务场景设计合适的方案；
  - 数据敏感，能够从主观评测样本中识别系统性问题并量化影响。

  强烈加分
  - 有 LLM-a…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 评测体系设计
    - 针对电商搜索（query→item 相关性、意图覆盖、长尾、新品冷启等）和推荐（相关性、惊喜度、多样性、疲劳度、场景适配等）定义多维度评测标准与打分规则；
    - 建立分层评测框架：badcase 排查 · 离线评测集 · 在线人工巡检 · A/B 主观补充评估。
  2. 数据 & 流程建设
    - 主导评测样本的采样策略（高价值流量、长尾、争议 case、回归集等）；
    - 设计 query/item 标注 SOP、培训机制、质检与一致性（IAA）管理；
    - 建设可复用的评测平台/工作流，将一次性评测沉淀为可回归的资产。
  3. 碳基 + 硅基协同
    - 推动 LLM-as-a-judge 在大规模评测中的落地，与人工评测形成互校验闭环；
    - 设计 prompt、校准方法与置信度机制，控制硅基评测的偏差与漂移；
    - 将主观评测信号回流到模型训练（SFT/RLHF/偏好对）与策略迭代。
  4. 驱动业务决策
    - 将评测结论翻译成搜推算法、产品、运营可执行的优化方向；
    - 作为搜推方向的"质量代言人"，参与重大版本、模型升级、策略变更的 go/no-go 决策；
    - 定期对外输出搜推体验质量报告。
  5. 团队搭建与管理
    - 组建并培养评测分析师、标注运营、评测算法工程师组成的复合团队；
    - 与算法、产品、数据、标注供应商建立稳定的协作机制。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

RLHF+