
智能互联阿里控股-大模型数据工程师-Code/Agentic方向
任职要求
1. 精通数据处理生态,熟悉分布式数据处理,能构建高效稳定的数据流水线,有大规模 ETL 流水线优化经验。
2. 深入理解Code(代码理解、生成、调试)和Agentic(工具调用、规划…工作职责
1. 负责大模型的高质量的数据构造工作,主要在code、Agentic等垂域数据任务 2. 大规模数据解析、清洗、去重,以及数据生成/合成等工作,覆盖GitHub、代码镜像、内部代码库等。 3. 设计并实现面向 Agent 轨迹采集的沙盒环境,支持工具调用(Function Call)、多步规划、环境交互等行为记录。 4. 构建 Agentic 任务的数据标注规范和质量评估框架,包括轨迹合法性校验、奖励建模所需的偏好数据构造

1. 从模型迭代目标出发,设计覆盖全面、层次清晰的评测体系;明确各维度评测的考核重点和难度梯度。 2. 自主构建高质量评测数据集,包括题目设计、标准答案制定、评测逻辑实现;确保题目区分度、公平性和防污染性。 3. 基于Benchmark结果,为模型团队提供清晰的能力雷达图、短板分析和优化优先级建议。 4. 探索更科学的评测指标、更高效的评测方法。

1.基于模型内部评测和错误案例,系统性分析模型能力边界和短板;建立能力拆解框架(如代码生成可拆分为理解、规划、实现、调试等子能力) 2.主导高质量数据的获取、清洗、增强和验证;探索先进的数据合成技术(如基于强模型的蒸馏、多智能体协作生成)。 3.设计小规模实验验证数据有效性,建立数据-效果关联分析机制,量化数据投入产出比。

职位要求: 1. 数据资产全景与指标体系构建:负责搭建数据资产全景视图,提炼关键业务指标,通过数据洞察市场趋势,为决策层输出专业数据建议 2. 全链路效率监控与优化:围绕AI模型训练场景,构建数据全链路转化漏斗监控体系,追踪各环节转化率与周期效率,识别并推动解决流程卡点,保障数据高效流转 3. 反馈闭环建设与质量评估:建立从数据反馈出发的优化体系,统一拉齐数据质量评估标准,指导提升数据质量的提升及需求的衔接度 4. 跨团队协作与决策支持:协同数据开发、算法团队优化大模型训练效果,设计实验监控模型的反馈结果,给出量化的指标和建议,促进模型的不断优化

我们是阿里巴巴大模型推理团队,负责生成式AI领域(主要是图像生成和LLM)的内部产品、训练推理服务系统建设和维护,为淘宝、天猫、聚划算、优酷、闲鱼等多个集团业务部门提供强有力的技术支撑和底层服务能力。 1. 针对特定异构芯片(如华为昇腾、AMD MI系列等),深入分析其指令集、存储层级(HBM/Cache)和计算单元特性,使用原生语言(如CANN C/C++, HIP C++)手写和优化核心算子(如Attention, MoE Gate, GEMM等),实现极致性能。 2. 主导或核心参与基于编译技术的算子优化方案,利用Triton、TileLang、JAX/MLIR等技术栈,构建一套可跨硬件复用的算子生成与图优化框架,大幅缩短新卡型或新模型的适配周期。 3. 使用专业的Profiling工具,对模型在异构硬件上的端到端性能进行分析,精准定位Kernel执行、数据搬运、通信等环节的瓶颈,并提出体系化的优化方案。