logo of aliyun

阿里云阿里云智能-对象存储数据湖技术专家-成都/杭州

社招全职5年以上云智能集团地点:成都 | 杭州状态:招聘

任职要求


1、5年以上开发经验,精通 Javarust开发,有大型项目全栈交付经验者优先。
2、掌握湖仓架构,熟悉 iceberghudi 等主流的湖仓系统,熟悉 AI 场景的新兴格式如 lance 等。掌握主流 AI 训练推理原理,有工业级项目落地实践经验者优先,持有阿里云ACA/ACP/ACE认证证书者优先。
3、了解主流云平台(如阿里云/AWS)架构体系,具备 Serverless 或微服务…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责基于 OSS 构建高性能、可扩展的 Iceberg 数据湖,支持 AI 场景下的结构化与半结构化数据管理。
2、负责多种存储格式的集成与优化,将多种列式存储格式深度集成至数据湖体系,开发高效向量数据读写、索引及查询能力。
3、负责 AI 数据管道性能调优,面向大模型训练、向量检索等AI负载,优化从 OSS 到计算引擎的数据I/O路径,提升吞吐与降低延迟。
4、负责跨团队协作与技术落地,与 AI 平台、存储、计算等团队紧密合作,推动湖格式技术在实际业务场景中的规模化应用。
包括英文材料
Java+
Rust+
Iceberg+
Hudi+
AWS+
还有更多 •••
相关职位

logo of antgroup
社招3年以上技术-开发

1、负责蚂蚁全站数据研发平台Dataphin实时相关体系建设,包括通用+智能(流批一体,Codeless)研发平台,质量保障平台,支撑智能化商业决策和运营,让数据快速释放价值; 2、负责蚂蚁全站数据研发平台Dataphin基础设施相关体系建设,保障全站用户稳定,高效,安全进行数据生产建设; 3、负责蚂蚁集团受控加工平台的应用架构设计和系统实施,通过体系化并具有前瞻性的能力建设,确保研发时即受控保障、事前可灰度观测、事中可观测预警、事后可应急快恢,使得数据三板斧和数据SLA在蚂蚁数据域全面落地。

更新于 2025-04-29杭州
logo of antgroup
社招3年以上技术-开发

1、负责蚂蚁全站数据研发平台Dataphin实时相关体系建设,包括通用+智能(流批一体,Codeless)研发平台,质量保障平台,支撑智能化商业决策和运营,让数据快速释放价值; 2、负责蚂蚁全站数据研发平台Dataphin基础设施相关体系建设,保障全站用户稳定,高效,安全进行数据生产建设; 3、负责蚂蚁集团受控加工平台的应用架构设计和系统实施,通过体系化并具有前瞻性的能力建设,确保研发时即受控保障、事前可灰度观测、事中可观测预警、事后可应急快恢,使得数据三板斧和数据SLA在蚂蚁数据域全面落地。

更新于 2025-10-28杭州
logo of aligenie
社招3年以上技术类-开发

1、负责大规模多模态数据计算引擎的核心架构设计与执行计划优化,构建面向异构计算(CPU/GPU)的高效任务调度机制与执行流水线,解决PB级多模态数据(图像、音频、视频等)处理过程中的关键性能瓶颈; 2、应对PB级数据在Shuffle、Join、Aggregation等场景中面临的内存、I/O与存储资源挑战,攻克每日PB级流批一体数据处理过程中的系统稳定性难题了; 3、提供SQL-like与Python双端编程接口,打造从本地开发调试到生产级分布式计算的一站式开发体验,持续提升开发效率与工程易用性; 4、应对百PB级结构化数据及多模态数据入湖场景下的高效存储与高吞吐I/O挑战;实现多租户I/O与存储资源的有效隔离;构建完善的数据治理体系,保障数据质量,防范数据腐化风险。

更新于 2026-04-06杭州
logo of bytedance
社招3年以上A00928

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,为科技和社会发展作出贡献。 Seed 团队在 AI 领域拥有长期愿景与决心,团队研究方向涵盖 MLLM、GenMedia、AI for Science、机器人等,在中国、新加坡、美国等地设有实验室和岗位。目前,团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、即梦、TRAE 等超过 50 个应用场景,并通过火山引擎开放给企业客户。第三方数据显示,豆包 App 用户量在中国市场排名第一,豆包大模型日均 Token 调用量行业领先。 1、数据生产管理统筹:World Model训练数据的全生命周期管理,涵盖数据需求分析、采集规范制定、质量审核、版本管理及上线交付,确保数据供给的规模、多样性与一致性满足模型迭代要求; 2、合成产线搭建:主导自动化数据合成产线的设计与落地,利用游戏引擎(如Unreal Engine/Unity)或仿真平台(如Isaac Sim/CARLA)构建可程序化驱动的场景生成、渲染与标注流水线,大幅降低人工数据采集成本; 3、工作流设计:负责端到端数据工作流的梳理与标准化,包括标注任务分发、众包质检、人机协同审核等关键节点的流程设计,输出可复用的SOP并落地到工具平台中; 4、数据质量体系:建立面向World Model的数据质量评估框架,定义时序一致性、物理合理性、多模态对齐等核心质量维度的量化指标,并推动质检工具的自动化落地; 5、跨团队协同:深度对接算法研发团队,理解模型训练对数据分布、格式与规模的动态需求,快速响应并调整产线配置;同时协调外部供应商、外包团队及开源社区资源,保障数据交付节奏; 6、效率与规模优化:持续追踪产线瓶颈,推动渲染调度、标注自动化、数据清洗等环节的工程优化,建立数据产出效率与质量的双向监控体系,支撑产线从百万级向十亿级规模的扩展。

更新于 2026-03-30北京