阿里巴巴数据技术及产品部-大模型评测-Cowork方向

社招全职2年以上2026-06-29地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

通用能力要求
1. 有AI+办公、金融、法律、科研、企业级项目管理等行业经验，对相关技术趋势有深入理解和判断，并将其转化为可量化的评测维度。
2.  具备从零设计 Benchmark 的经验，理解评测集在区分度、抗污染性、生态效度等方面的设计权衡。
3. 扎实的软件工程背景，cowork软件产研背景，能从开发者、视角审视代码能力评测的合理性。
4. 熟悉主流评测集的设计理念与局限性。
方向 1：AI 办公 & 数据分析 
精通 Excel 高级功能（透视表/VBA/Power Query）、Python 办公自动化（openpyxl/pandas/python-pptx），有钉钉/飞书等协同平台 API 开发经验。
方向 2：金融 & 法律 
金融侧熟悉财报分析、估值建模、研报撰写；法律侧有合同审查、法条检…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 评测集体系搭建：构建Cowork方向评测体系，涵盖基模、AI应用下的AI办公软件、金融、法律、GUI&CLI 、企业级工作流大型项目等方向评测体系
2.  Benchmark建设：构建高专业、高覆盖率的in-house 评测集，管理运营专家评测集生产，评测集合成技术生产
3. 评测集环境定制化开发：基于基础环境，定制化开发相关环境，构建与真实场景相匹配的环境，以支持评测集建设
4. 自动化评测集技术：LLM as Judge,Agent as Judge等评测技术研发，实现高效的自动评测
5. 评测输出：周期性评测模型短板，在模型研发阶段提供针对性的数据建议。指导数据生产、模型迭代。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据分析+

Excel+

VBA+

Python+

还有更多 •••

登录查看完整学习资料