logo of alibaba

阿里巴巴数据技术及产品部-AI数据处理工程师-数据

社招全职1年以上技术类-数据地点:杭州状态:招聘

任职要求


1、具备AI+数据双栈能力:精通Python,熟悉SQL/Shell;理解LLM、音频/视频模型、多模态模型等基础原理;具有大模型数据构造、清洗、合成或质量评估相关实践经验。
2、多模态数据能力:熟悉图像、视频或音频中的任一模态的特征工程、理解/分类/识别算法或质量建模方法;具备深度学习模型训练实践(PyTorch/TensorFlow)。
3、数据工程基础扎实:熟悉主流大数据平台(如 Spark/Flink/MaxCompute/Hadoop);具备 ETL、数据建模、数据 Pipeline 或数据仓库建设经验。
4、数据治理意识:理解元数据、数据质量、数据血缘、数据标准等治…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与集团级AI数据引擎:负责多模态数据(文本、音频、图像、视频)的采集、清洗、处理、治理与资产化管理,打造可复用、可观测、可解释的 EB 级数据体系,支撑大模型训练与推理的高质量数据供给;
2、多模态数据智能化处理:主导音频/视频/图像等模态的自动理解、标签体系构建、语义特征抽取、质量建模与自动化治理;设计并训练分类、识别、预测等多模态模型;
3、AI Native数据Pipeline建设:使用LLM+Agent框架构建智能数据Pipeline,实现数据分渠道过滤、去重、质量诊断、调度编排和异常告警等环节的自动化,显著降低人力成本;
4、数据&模型闭环迭代:基于评测反馈的短板,设计对应的专项数据集,并在训练过程中构建可观测指标,量化数据对模型能力提升的贡献,动态更新数据集,实现数据 → 模型 → 评测 → 数据的循环优化;
5、数据资产治理:负责元数据、数据血缘、分类分级、质量评分、数据标准、价值评估等治理框架的设计与落地,推动数据资产的可视化与可运营化,让数据可管理、可复用、可增长;
6、与模型团队协作,参与训练数据构造、数据反哺、短板挖掘和评测闭环建设,通过数据驱动模型能力提升,成为AI模型训练的数据核心驱动力;
包括英文材料
Python+
SQL+
Bash+
大模型+
特征工程+
算法+
深度学习+
PyTorch+
TensorFlow+
大数据+
Spark+
还有更多 •••