阿里巴巴AI数据工程师

实习兼职阿里巴巴2027届实习生2026-05-19地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

1.基础条件
● 计算机、软件工程、数学、统计、人工智能、大数据、机器人等相关专业硕士/博士优先（非此类专业，有相关经验亦可）。
● 有顶会论文/高影响项目/开源贡献者加分。

2.专业能力
● 大数据处理技术：深入理解大规模分布式数据处理系统原理，熟悉Spark/Flink/Ray等开源技术栈；深入理解流批处理原理（计算模型、调度和资源管理、容错与一致性等）；可独立完成面向全模态数据（结构化/文本/图像/音频/视频）的批流一体数据处理开发与优化。
● 大模型技术的理解与掌握：深入理解大模型核心原理，包括Transformer架构、上下文学习（ICL）、指令微调（Instruction Tuning）、检索增强生成（RAG）及推理机制（如思维链CoT）等关键技术；熟悉大模型在预训练、监督微调（SFT）和强化学习对齐（RLHF/RLAIF）等阶段的数据需求与优化逻辑。能够基于领域场景设计高质量数据处理与合成算法，通过系统化的数据迭代、评估反馈与模型微调闭环，持续驱动大模型在特定领域的能力…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

以数据驱动、评测驱动的方式，构建数据高效迭代闭环，建立从数据寻源、标注、处理、合成到评测的全链路数据体系，持续建设高质量数据集和评测集，不断推动基础模型能力提升，推动AI模型和应用发展。

具体职责包括以下相关方向的一项或多项：
1.全模态数据处理：
● 参与研发万亿级数据规模的全模态数据处理引擎。
● 通过设计高性能、可复用的数据处理算子，构建覆盖全生命周期的自动化数据生产pipeline。
● 解决海量数据在清洗、脱敏及增强过程中的计算瓶颈，利用智能筛选与精准对齐算法交付极具竞争力的高质量训练集。
● 持续优化全链路交付效能，确保数据质量与处理规模世界领先。
2.大模型数据理解与资产体系建设：
● 参与全模态AI数据基础设施建设。 负责设计支撑AGI 演进的多模态语义标签标准与特征映射体系，通过构建先进的质量度量模型与内容理解框架，实现对海量 3D、视频、音频等复杂数据的自动化精炼，精细化的数据理解体系加速AGI发展的科学性与高效性。
● 构建核心AI数据战略资产体系。 结合业务垂直场景与最前沿算法，深度参与海量数据的解析、挖掘与性能优化，驱动EB级全模态数据的深度解析与价值发现；通过全链路的智能处理与挖掘优化，将海量数据转化为高稀缺性和行业竞争壁垒的AI数据资产。
3.领域全链路数据策略建设：
● 设计实现面向大模型细分领域的模型性能优化的全链路数据体系，涵盖评测体系设计、数据加工与数据合成链路、数据标注策略设计。
● 深度理解大模型细分领域的技术点，实践“评测驱动”（Evaluation-Driven Development，EDD）的大模型迭代方法，确保千问、万相等基础模型能力持续处于世界领先水平。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大数据+

Spark+

Flink+

Ray+

大模型+

Transformer+

RAG+

还有更多 •••

登录查看完整学习资料