阿里巴巴数据技术及产品部-AI数据工程-杭州

社招全职2年以上技术类-数据2026-06-16地点：杭州状态：招聘

扫码手机上打开

任职要求

1、具备AI+数据双栈能力：精通Python，熟悉SQL/Shell；理解LLM、音频/视频模型、多模态模型等基础原理；具有大模型数据构造、清洗、合成或质量评估相关实践经验。
2、多模态数据能力：熟悉图像、视频或音频中的任一模态的特征工程、理解/分类/识别算法或质量建模方法；具备深度学习模型训练实践（PyTorch/TensorFlow）。
3、数据工程基础扎实：熟悉主流大数据平台（如 Spark/Flink/MaxCompute/Hadoop）；具备 ETL、数据建模、数据 Pipeline 或数据仓库建设经验。
4、数据治理意识：理解元数据、数据质量、数据血缘、数据标准等治理理念；…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、参与集团级AI数据引擎：负责多模态数据（文本、音频、图像、视频）的采集、清洗、处理、治理与资产化管理，打造可复用、可观测、可解释的 EB 级数据体系，支撑大模型训练与推理的高质量数据供给；
2、多模态数据智能化处理：主导音频/视频/图像等模态的自动理解、标签体系构建、语义特征抽取、质量建模与自动化治理；设计并训练分类、识别、预测等多模态模型；
3、AI Native数据Pipeline建设：使用LLM+Agent框架构建智能数据Pipeline，实现数据分渠道过滤、去重、质量诊断、调度编排和异常告警等环节的自动化，显著降低人力成本；
4、数据&模型闭环迭代：基于评测反馈的短板，设计对应的专项数据集，并在训练过程中构建可观测指标，量化数据对模型能力提升的贡献，动态更新数据集，实现数据 → 模型 → 评测 → 数据的循环优化；
5、数据资产治理：负责元数据、数据血缘、分类分级、质量评分、数据标准、价值评估等治理框架的设计与落地，推动数据资产的可视化与可运营化，让数据可管理、可复用、可增长；
6、算法与工程一体化协作：与模型团队协作，参与训练数据构造、数据反哺、短板挖掘和评测闭环建设，通过数据驱动模型能力提升，成为AI模型训练的数据核心驱动力；

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

SQL+

Bash+

大模型+

特征工程+

算法+

深度学习+

PyTorch+

TensorFlow+

大数据+

Spark+

还有更多 •••

登录查看完整学习资料