logo of alibaba

阿里巴巴数据技术及产品部-大模型评测-Cowork方向

社招全职2年以上地点:北京 | 杭州状态:招聘

任职要求


通用能力要求
1. 有AI+办公、金融、法律、科研、企业级项目管理等行业经验,对相关技术趋势有深入理解和判断,并将其转化为可量化的评测维度。
2.  具备从零设计 Benchmark 的经验,理解评测集在区分度、抗污染性、生态效度等方面的设计权衡。
3. 扎实的软件工程背景,cowork软件产研背景,能从开发者、视角审视代码能力评测的合理性。
4. 熟悉主流评测集的设计理念与局限性。
方向 1:AI 办公 & 数据分析 
精通 Excel 高级功能(透视表/VBA/Power Query)、Python 办公自动化(openpyxl/pandas/python-pptx),有钉钉/飞书等协同平台 API 开发经验。
方向 2:金融 & 法律 
金融侧熟悉财报分析、估值建模、研报撰写;法律侧有合同审查、法条检…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 评测集体系搭建:构建Cowork方向评测体系,涵盖基模、AI应用下的AI办公软件、金融、法律、GUI&CLI 、企业级工作流大型项目等方向评测体系
2.  Benchmark建设:构建高专业、高覆盖率的in-house 评测集,管理运营专家评测集生产,评测集合成技术生产
3. 评测集环境定制化开发:基于基础环境,定制化开发相关环境,构建与真实场景相匹配的环境,以支持评测集建设
4. 自动化评测集技术:LLM as Judge,Agent as Judge等评测技术研发,实现高效的自动评测
5. 评测输出:周期性评测模型短板,在模型研发阶段提供针对性的数据建议。指导数据生产、模型迭代。
包括英文材料
数据分析+
Excel+
VBA+
Python+
还有更多 •••