logo of alibaba

阿里巴巴智能算法产品事业部-技术战略发展部 - ToC产品运营(评测方向)-北京/杭州

社招全职3年以上地点:北京 | 杭州状态:招聘

任职要求


- 至少 3 年聚焦在搜索 / 推荐 / 内容质量 / 评测体系,有团队管理经验优先;
  - 深入理解电商场景的搜推业务链路(query 理解、召回、粗排、精排、重排、多目标)以及对应的质量痛点;
  - 主导过 0→1 或 1→10 的评测体系搭建,包括标准制定、流程沉淀、平台化建设;
  - 熟悉 NDCG / GSB / side-by-side / preference labeling等主流主观评测方法,能根据业务场景设计合适的方案;
  - 数据敏感,能够从主观评测样本中识别系统性问题并量化影响。

  强烈加分
  - 有 LLM-a…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 评测体系设计
    - 针对电商搜索(query→item 相关性、意图覆盖、长尾、新品冷启等)和推荐(相关性、惊喜度、多样性、疲劳度、场景适配等)定义多维度评测标准与打分规则;
    - 建立分层评测框架:badcase 排查 · 离线评测集 · 在线人工巡检 · A/B 主观补充评估。
  2. 数据 & 流程建设
    - 主导评测样本的采样策略(高价值流量、长尾、争议 case、回归集等);
    - 设计 query/item 标注 SOP、培训机制、质检与一致性(IAA)管理;
    - 建设可复用的评测平台/工作流,将一次性评测沉淀为可回归的资产。
  3. 碳基 + 硅基协同
    - 推动 LLM-as-a-judge 在大规模评测中的落地,与人工评测形成互校验闭环;
    - 设计 prompt、校准方法与置信度机制,控制硅基评测的偏差与漂移;
    - 将主观评测信号回流到模型训练(SFT/RLHF/偏好对)与策略迭代。
  4. 驱动业务决策
    - 将评测结论翻译成搜推算法、产品、运营可执行的优化方向;
    - 作为搜推方向的"质量代言人",参与重大版本、模型升级、策略变更的 go/no-go 决策;
    - 定期对外输出搜推体验质量报告。
  5. 团队搭建与管理
    - 组建并培养评测分析师、标注运营、评测算法工程师组成的复合团队;
    - 与算法、产品、数据、标注供应商建立稳定的协作机制。
包括英文材料
大模型+
RLHF+