阿里巴巴智能算法产品事业部-技术战略发展部 - ToC产品运营(评测方向)-北京/杭州
社招全职3年以上地点:北京 | 杭州状态:招聘
任职要求
- 至少 3 年聚焦在搜索 / 推荐 / 内容质量 / 评测体系,有团队管理经验优先;
- 深入理解电商场景的搜推业务链路(query 理解、召回、粗排、精排、重排、多目标)以及对应的质量痛点;
- 主导过 0→1 或 1→10 的评测体系搭建,包括标准制定、流程沉淀、平台化建设;
- 熟悉 NDCG / GSB / side-by-side / preference labeling等主流主观评测方法,能根据业务场景设计合适的方案;
- 数据敏感,能够从主观评测样本中识别系统性问题并量化影响。
强烈加分
- 有 LLM-a…登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 评测体系设计
- 针对电商搜索(query→item 相关性、意图覆盖、长尾、新品冷启等)和推荐(相关性、惊喜度、多样性、疲劳度、场景适配等)定义多维度评测标准与打分规则;
- 建立分层评测框架:badcase 排查 · 离线评测集 · 在线人工巡检 · A/B 主观补充评估。
2. 数据 & 流程建设
- 主导评测样本的采样策略(高价值流量、长尾、争议 case、回归集等);
- 设计 query/item 标注 SOP、培训机制、质检与一致性(IAA)管理;
- 建设可复用的评测平台/工作流,将一次性评测沉淀为可回归的资产。
3. 碳基 + 硅基协同
- 推动 LLM-as-a-judge 在大规模评测中的落地,与人工评测形成互校验闭环;
- 设计 prompt、校准方法与置信度机制,控制硅基评测的偏差与漂移;
- 将主观评测信号回流到模型训练(SFT/RLHF/偏好对)与策略迭代。
4. 驱动业务决策
- 将评测结论翻译成搜推算法、产品、运营可执行的优化方向;
- 作为搜推方向的"质量代言人",参与重大版本、模型升级、策略变更的 go/no-go 决策;
- 定期对外输出搜推体验质量报告。
5. 团队搭建与管理
- 组建并培养评测分析师、标注运营、评测算法工程师组成的复合团队;
- 与算法、产品、数据、标注供应商建立稳定的协作机制。包括英文材料
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
RLHF+
[英文] What is RLHF?
https://aws.amazon.com/what-is/reinforcement-learning-from-human-feedback/
Reinforcement learning from human feedback (RLHF) is a machine learning (ML) technique that uses human feedback to optimize ML models to self-learn more efficiently.
https://www.ibm.com/think/topics/rlhf
Reinforcement learning from human feedback (RLHF) is a machine learning technique in which a “reward model” is trained with direct human feedback, then used to optimize the performance of an artificial intelligence agent through reinforcement learning.