阿里巴巴晓天衡宇-大模型数据工程师-Coding/Agentic
社招全职2年以上地点:杭州状态:招聘
任职要求
1. 精通数据处理生态,熟悉分布式数据处理,能构建高效稳定的数据流水线,有大规模 ETL 流水线优化经验;
2. 深入理解Code(代码理解、生成、调试)和Agentic(工具调用、规划…登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 负责大模型的高质量的数据构造工作,主要在code、Agentic等垂域数据任务; 2. 大规模数据解析、清洗、去重,以及数据生成/合成等工作,覆盖GitHub、代码镜像、内部代码库等; 3. 设计并实现面向 Agent 轨迹采集的沙盒环境,支持工具调用(Function Call)、多步规划、环境交互等行为记录; 4. 构建 Agentic 任务的数据标注规范和质量评估框架,包括轨迹合法性校验、奖励建模所需的偏好数据构造。
包括英文材料
ETL+
https://www.ibm.com/think/topics/etl
ETL—meaning extract, transform, load—is a data integration process that combines, cleans and organizes data from multiple sources into a single, consistent data set for storage in a data warehouse, data lake or other target system.
https://www.youtube.com/watch?v=OW5OgsLpDCQ
It explains what ETL is and what it can do for you to improve your data analysis and productivity.
还有更多 •••