logo of alibaba

阿里巴巴AI Business-大模型评测高级研发工程师-杭州

社招全职2年以上技术类-数据地点:杭州状态:招聘

任职要求


必备
• 计算机、数学相关专业,本科及以上学历
• 熟练掌握 Python,扎实的数据结构机器学习功底
• 熟悉 transformers、PyTorch/TensorFlow,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


作为大模型评测研发工程师,将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发:从评测数据集设计、智能化自动化评估方法探索研究、指标实现,到平台化落地,精准衡量模型能力边界,持续驱动模型语料优化与模型迭代

通用 Benchmark 研发
• 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架; 
• 研究并实现更贴合业务发展的评测方法与指标,构建高效、可扩展、可复现、可解释的评测引擎

业务领域 Benchmark 构建与评测
• 深入跨境电商各个业务领域,构建领域Benchmark,真实反馈模型业务表现
• 设计场景化评估方案,如RAG、Agent、COT、 In-Context Learning等,并形成端到端评测能力;

评测方法研究
• 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术
• 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议,高效复现SOTA方法,形成可比对可参考的评估系统
包括英文材料
学历+
Python+
数据结构+
机器学习+
还有更多 •••
相关职位

logo of alibaba
社招3年以上技术类-数据

1、参与大模型数据平台架构设计与开发,为大模型数据资产建设管理提供平台支持,支持数据资产上架、知识生产、检索、训练应用等;数据用途上包含预训练数据、微调数据、评测数据等,数据模态上包含文本、图片、视频、音频等各类模态数据。 2、参与高可用、可扩展、分布式大模型评测平台架构设计与开发,支持多模型、多方法、多评测集的评测任务执行、评测结果分析,优化评测框架,提升评测效率,支持实现大模型快速迭代的评测要求。 3、在通用BenchMark基础上构建业务领域Benchmark,围绕“语料供给-模型迭代-模型评测”的链路不断优化链路,提升生产效率。 4、持续的创新和优化能力,提升产品整体质量,改善用户体验。

更新于 2025-06-30杭州
logo of alibaba
社招3年以上技术类-前端

1. 负责AI Business AI2C 创新小组相关产品的前端架构设计及研发,保障系统的安全、可扩展以及质量和性能,参与创新产品构思,与PD、UED、后端工程师协作,完成设计交互实现、数据交互、动态信息展现等; 2. 关注用户体验,与合作方一起不断改进产品的易用性;运用AI能力重塑产品形态与开发效率,提升用户体验; 3. 研究和探索创新的开发思路和新的前端技术,结合业务特点创新应用AI技术,解决前端团队开发过程中面临的各类问题,提升个人和团队的开发效能

更新于 2025-09-17杭州
logo of alibaba
社招2年以上产品类-用户型

1. 深入探索AI技术在跨境电商场景的应用,将AI大模型能力转化为商家可感知的实际价值,推动AI产品从概念到落地。 2. 深入挖掘跨境电商商家需求,精准捕捉商家痛点,定义AI产品功能,构建以商家价值为中心的产品路径。 3. 与算法、研发、设计、运营等团队紧密协作,推动AI技术与跨境电商业务的深度融合。 4. 负责AI产品从0到1的全链路管理,涵盖需求分析、产品设计、评测等关键环节,确保产品达成商业目标,

更新于 2025-07-18杭州
logo of alibaba
实习阿里国际2026

AI Business成立于2023年4月,是阿里国际数字商业集团设立的一层业务组织,专注于AI技术能力建设和AI产品能力输出,旨在用最先进的AI技术重塑平台竞争力,为商家和用户带来极致的电商体验。 作为跨境电商领域的AI先锋,我们坚定地相信人工智能对塑造未来电商的关键作用,并坚持对AI领域人才的培养和发展。我们已经汇聚了业内顶尖的AI算法专家、AI工程师和AI产品团队,并诚挚邀请有共同使命感、追求创新与卓越的AI人才加入我们的团队,共同用AI技术书写数字商业领域的新篇章。 1、应用各类机器学习方法为大模型训练提供高质量训练数据,包含文本、图片、视频、音频等数据类型,探索基于AIGC的数据合成技术,不断提升数据对大模型上表现的贡献,追逐Data-centric AI的数据技术能力 2、建设跨境电商领域的Knowledge Base,从而构建服务阿里跨境电商的RAG、AI Agent 3、在通用BenchMark、业务领域BenchMark基础上,建设大模型自动化评测能力,通过模型评测进行科学数据供给和大模型训练

更新于 2025-04-15杭州