阿里巴巴阿里控股-RL Data 工程师-Cowork

社招全职2年以上2026-07-03地点：杭州状态：招聘

扫码手机上打开

任职要求

1. 有 AI+办公、金融、法律、电商、网络安全、芯片/半导体、Visual Design 等领域的行业经验，能基于专业判断对 Agent 输出做准确的对错裁定，而非仅凭"看起来合理"。
2. 具备轨迹级标注能力：能对 Agent 多步执行序列逐步评判正确性、必要性、思考质量，准确归因 bad case 根因（模型能力不足 / 评测标准缺陷 / 任务定义问题）。
3. 能理解并严格执行 Rubric 评分标准，标注一致性高；遇到 Rubric 未覆盖的边界情况能准确记录并反馈，而非自行发挥。
4. 有双标校验、分歧仲裁的协作经验，能清晰表述评分依据，说服或接受他人的合理异议。
5. 能区分"最终结果错误"与"过程路径不优"——前者是硬伤，后者需按梯度扣分而非一刀切判零。
6. 熟悉 Agent 工具调用模式（bash/python/API），能读懂执行日志和代码片段，判断操作是否冗余、是否有隐性副作用。

方向 1：AI 办公 & 数据分析 
精通 Excel 高级功能（透视表/VBA/Power Query）、Pyt…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 端到端负责RL数据（cowork 方向）项目：从方案设计、数据有效性验证到规模化生产 ，帮助模型在性能上达到业界SOTA。
2. 数据体系搭建：构建 Cowork 方向数据构造与标注规范体系，涵盖 AI 办公软件、金融、法律、电商、网络安全、芯片 EDA、Visual Design 等方向的 Rubric 制定、评分标准分级与标注案例库建设。
3. 轨迹标注生产：对模型 Rollout 产出的多步执行轨迹进行逐步标注（正确性/必要性/思考质量/整体 Reward），管理外部数据供应商交付质量，运营内部专家数据产能。
4. Bad Case 归因分析：对标注轨迹中的失败步骤做根因分类（模型能力不足 / 评测标准缺陷 / 任务定义问题），输出结构化改进清单，驱动训练数据补充与评测体系修正。
5. 标注质量管控：建立双标一致性校验、金标准抽检、系统性偏差检测与分歧仲裁机制，确保标注数据可直接用于 Reward Model 训练，标注间一致率 ≥80%。
6. 数据输出与迭代：周期性输出标注数据质量报告，识别模型能力薄弱区间，指导算法团队调整 Rollout 抽样策略与难度分布；随模型迭代补充更高难度标注数据，保持 Reward Model 区分度。
7. 定义评分标准(rubrics)、黄金集(golden sets)和奖励信号(reward signals)，确保训练数据质量可量化、可追溯、可迭代。
8. 协同算法团队闭环：与模型训练/RL算法团队紧密配合，将模型效果反馈翻译为数据改进策略，驱动数据→模型→评测的飞轮。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

AI agent+

Bash+

Python+

数据分析+

还有更多 •••

登录查看完整学习资料