logo of alibaba

阿里巴巴阿里控股-RL Data 工程师-Cowork

社招全职2年以上地点:杭州状态:招聘

任职要求


1. 有 AI+办公、金融、法律、电商、网络安全、芯片/半导体、Visual Design 等领域的行业经验,能基于专业判断对 Agent 输出做准确的对错裁定,而非仅凭"看起来合理"。
2. 具备轨迹级标注能力:能对 Agent 多步执行序列逐步评判正确性、必要性、思考质量,准确归因 bad case 根因(模型能力不足 / 评测标准缺陷 / 任务定义问题)。
3. 能理解并严格执行 Rubric 评分标准,标注一致性高;遇到 Rubric 未覆盖的边界情况能准确记录并反馈,而非自行发挥。
4. 有双标校验、分歧仲裁的协作经验,能清晰表述评分依据,说服或接受他人的合理异议。
5. 能区分"最终结果错误"与"过程路径不优"——前者是硬伤,后者需按梯度扣分而非一刀切判零。
6. 熟悉 Agent 工具调用模式(bash/python/API),能读懂执行日志和代码片段,判断操作是否冗余、是否有隐性副作用。

方向 1:AI 办公 & 数据分析 
精通 Excel 高级功能(透视表/VBA/Power Query)、Pyt…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 端到端负责RL数据(cowork 方向)项目:从方案设计、数据有效性验证到规模化生产 ,帮助模型在性能上达到业界SOTA。
2. 数据体系搭建:构建 Cowork 方向数据构造与标注规范体系,涵盖 AI 办公软件、金融、法律、电商、网络安全、芯片 EDA、Visual Design 等方向的 Rubric 制定、评分标准分级与标注案例库建设。
3. 轨迹标注生产:对模型 Rollout 产出的多步执行轨迹进行逐步标注(正确性/必要性/思考质量/整体 Reward),管理外部数据供应商交付质量,运营内部专家数据产能。
4. Bad Case 归因分析:对标注轨迹中的失败步骤做根因分类(模型能力不足 / 评测标准缺陷 / 任务定义问题),输出结构化改进清单,驱动训练数据补充与评测体系修正。
5. 标注质量管控:建立双标一致性校验、金标准抽检、系统性偏差检测与分歧仲裁机制,确保标注数据可直接用于 Reward Model 训练,标注间一致率 ≥80%。
6. 数据输出与迭代:周期性输出标注数据质量报告,识别模型能力薄弱区间,指导算法团队调整 Rollout 抽样策略与难度分布;随模型迭代补充更高难度标注数据,保持 Reward Model 区分度。
7. 定义评分标准(rubrics)、黄金集(golden sets)和奖励信号(reward signals),确保训练数据质量可量化、可追溯、可迭代。
8. 协同算法团队闭环:与模型训练/RL算法团队紧密配合,将模型效果反馈翻译为数据改进策略,驱动数据→模型→评测的飞轮。
包括英文材料
AI agent+
Bash+
Python+
数据分析+
还有更多 •••