logo of alibaba

阿里巴巴AI Business-大模型评测高级研发工程师-杭州

社招全职2年以上技术类-数据地点:杭州状态:招聘

任职要求


必备
• 计算机、数学相关专业,本科及以上学历
• 熟练掌握 Python,扎实的数据结构机器学习功底
• 熟悉 transformers、PyTorch/TensorFlow,有大规模数据处理经验
加分
• 在 NeurIPS/ICLR/ACL 等顶会以一作发表评测相关论文
• 主导过公开Benchmark的设计与维护
• 有大模型微调、RLHF实践经验

工作职责


作为大模型评测研发工程师,将负责“大模型通用Benchmark评测体系”与“业务领域Benchmark构建”的全链路研发:从评测数据集设计、智能化自动化评估方法探索研究、指标实现,到平台化落地,精准衡量模型能力边界,持续驱动模型语料优化与模型迭代

通用 Benchmark 研发
• 持续迭代覆盖语言理解、推理、知识、幻觉、对齐、代码、多模态、Agent 等各个维度的自动化评测框架; 
• 研究并实现更贴合业务发展的评测方法与指标,构建高效、可扩展、可复现、可解释的评测引擎

业务领域 Benchmark 构建与评测
• 深入跨境电商各个业务领域,构建领域Benchmark,真实反馈模型业务表现
• 设计场景化评估方案,如RAG、Agent、COT、 In-Context Learning等,并形成端到端评测能力;

评测方法研究
• 探索基于 LLM-as-a-Judge、人类偏好对齐、模型解释性等前沿评测技术
• 跟踪 ACL / EMNLP / NeurIPS / ICML / ICLR 等会议,高效复现SOTA方法,形成可比对可参考的评估系统
包括英文材料
学历+
Python+
数据结构+
机器学习+
PyTorch+
TensorFlow+
NeurIPS+
大模型+
相关职位

logo of alibaba
社招3年以上技术类-数据

1、参与大模型数据平台架构设计与开发,为大模型数据资产建设管理提供平台支持,支持数据资产上架、知识生产、检索、训练应用等;数据用途上包含预训练数据、微调数据、评测数据等,数据模态上包含文本、图片、视频、音频等各类模态数据。 2、参与高可用、可扩展、分布式大模型评测平台架构设计与开发,支持多模型、多方法、多评测集的评测任务执行、评测结果分析,优化评测框架,提升评测效率,支持实现大模型快速迭代的评测要求。 3、在通用BenchMark基础上构建业务领域Benchmark,围绕“语料供给-模型迭代-模型评测”的链路不断优化链路,提升生产效率。 4、持续的创新和优化能力,提升产品整体质量,改善用户体验。

更新于 2025-06-30
logo of alibaba
社招3年以上技术类-前端

1. 负责AI Business AI2C 创新小组相关产品的前端架构设计及研发,保障系统的安全、可扩展以及质量和性能,参与创新产品构思,与PD、UED、后端工程师协作,完成设计交互实现、数据交互、动态信息展现等; 2. 关注用户体验,与合作方一起不断改进产品的易用性;运用AI能力重塑产品形态与开发效率,提升用户体验; 3. 研究和探索创新的开发思路和新的前端技术,结合业务特点创新应用AI技术,解决前端团队开发过程中面临的各类问题,提升个人和团队的开发效能

更新于 2025-09-17
logo of alibaba
社招5年以上技术类-开发

1.负责 Agentic 应用业务的架构方案设计, 研发落地, 与产品,算法紧密合作,快速迭代,基于模型的多模态推理能力,落地deep research, web-use, computer-use等基础能力,构建电商场景下的Agentic应用. 2.与算法同学co-design并优化整体Agentic业务效果,基于明确的优化目标快速拿结果。 3.与数据团队,评测团队紧密合作,持续优化agentic应用的评测流程提升算法迭代效率。

更新于 2025-10-10
logo of alibaba
社招2年以上产品类-用户型

1. 深入探索AI技术在跨境电商场景的应用,将AI大模型能力转化为商家可感知的实际价值,推动AI产品从概念到落地。 2. 深入挖掘跨境电商商家需求,精准捕捉商家痛点,定义AI产品功能,构建以商家价值为中心的产品路径。 3. 与算法、研发、设计、运营等团队紧密协作,推动AI技术与跨境电商业务的深度融合。 4. 负责AI产品从0到1的全链路管理,涵盖需求分析、产品设计、评测等关键环节,确保产品达成商业目标,

更新于 2025-07-18