阿里巴巴数据技术及产品部-AI 视频领域数据架构师-杭州/北京
社招全职5年以上技术类-数据地点:北京 | 杭州状态:招聘
任职要求
1. 计算机科学、人工智能、数据科学等相关专业,硕士及以上学历优先。 2. 5年以上AI数据相关经验,至少2年大模型(LLM/VLM)数据工作经验;有从0到1搭建数据团队或平台的经历;懂模型、懂数据、有产品 sense ,具备 AI 协同能力。 3. 技术深度:深入理解多模态大模型原理;精通数据清洗与质量评估方法;熟练…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
负责搭建并管理面向多模态视频领域大模型的全链路数据体系,包括数据评测、加工、合成与标注。作为模型算法团队与数据采集团队的核心桥梁,确保高质量、多样化数据供给。主要工作包括以下: 1. 评测体系构建:主导多模态视频领域大模型的评测标准制定,建立涵盖理解、生成、对齐、安全四大维度的评估框架,设计人工评测与自动评测相结合的混合评估方案,搭建评测数据集、生产管线,建立与SOTA模型(GPT-4V、Claude、Gemini等)的对比评测机制,输出专业评测报告。 2. 数据链路架构:构建大规模多模态训练数据的全生命周期处理链路:采集→清洗→去重→质量筛选→格式标准化→安全过滤,搭建数据质量监控体系,建立数据价值评估模型,确保高信息密度数据的持续供给; 3. 标注规范与质量体系:制定细粒度多模态标注规范:图像详细描述、视频时序标注、跨模态对齐、复杂推理链标注等;建立分层质检机制:机器预检→人工抽检→专家终审,确保标注的质量;设计标注人员培训体系与能力认证标准,搭建领域专家标注团队。
包括英文材料
数据科学+
https://roadmap.sh/ai-data-scientist
Step by step roadmap guide to becoming an AI and Data Scientist
学历+
还有更多 •••