logo of aliyun

阿里云阿里云智能-并行文件存储高级技术专家-杭州/上海

社招全职8年以上技术类-开发地点:杭州 | 上海状态:招聘

任职要求


1、精通C/C++,具有8年以上系统软件的开发经验,熟悉至少一门脚本语言;
2、熟悉传统企业级文件系统、分布式文件系统或各类存储引擎者优先,包含但不限于 Ext4、XFS、OneFS、HDFS, GFS, Lustre, GPFS, Ceph, GlusterFS, RocksDB 等;
3、具有高并发和超大规模分布式系统的设计和开发经验,理解分布式系统原理;
4、严谨的工作和学习态度,良好的分析解决复杂问题的能力和团队合作能力。

工作职责


1、负责应对各种复杂业务场景的分布式文件系统的设计与研发,包含高可用高可靠高性能设计,文件系统核心 IO 栈的研发;
2、负责高性能并行文件存储元数据的设计和研发,包含分布式元数据管理,分布式事务等关键技术,以及对应的稳定性工程,包括但不限于系统的可观测性、FaultTolerance、多租户 QoS系统研发。
包括英文材料
C+
C+++
脚本+
HDFS+
Ceph+
RocksDB+
高并发+
分布式系统+
相关职位

logo of aliyun
社招技术类-开发

1. 负责智算高性能存储系统架构设计与开发,面向AI训练场景的高性能并行文件系统模块开发,设计多级元数据服务架构,支撑海量文件与高吞吐数据流。 2. 软硬件定义,机型设计,构建存算协同机制,实现GPU Direct Storage、KV Cache/Share,不断提升存储系统性能和减少计算。 3. 保障存储系统高可用与数据安全,通过分布式强一致性、同/异步复制提升数据可靠性,设计系统自愈能力应对磁盘/节点异常,增强系统可观测和易运维能力,并通过测试与故障注入得到验证。

更新于 2025-06-09
logo of quark
社招1年以上技术类-算法

致力于构建高质量的大规模视觉训练数据集,支持图像、视频等多模态模型的研发。主导数据基础设施的设计与优化,确保数据具备良好的质量、多样性与可扩展性。 1. 开发并维护可扩展的数据基础设施,支持大规模图像和视频数据的采集、存储与管理; 2. 应用并部署机器学习模型用于数据清洗、预处理与格式标准化; 3. 实现可扩展且高效的工具,用于可视化、聚类以及深度理解数据; 4. 优化和并行化数据处理流程,以高效处理上亿级别的数据集; 5. 评估并提升训练数据的质量、多样性及标注准确性(包括但不限于caption生成); 6. 将来自用户偏好的数据来源转化为可用于训练的格式; 7. 与模型研发团队紧密协作,根据训练效果和模型反馈持续迭代数据策略。

更新于 2025-07-31
logo of xpeng
社招3年以上

1. 负责小鹏汽车“扶摇”AI平台数据处理相关的软件开发工作,包括数据加载工具(XDataLoader)和数据集管理平台(XDataset),提供统一的数据加载、转换、缓存与预取能力;目标解决大规模数据加载过程中出现的性能瓶颈、数据一致性、系统稳定性等问题,服务AI大模型的训练和推理; 2. 开发并维护高性能 DataLoader SDK,支持自定义采样、并行读取、缓存预取与数据增强等功能,优化多线程/进程流水线,降低I/O与预处理延迟,简化算法团队接入并提升加载效率; 3. 搭建通用Dataset管理系统,实现多源异构数据(图片、视频、点云、传感器等)的统一接入、解析与格式化; 4. 协同算法团队及其他技术团队,深入理解业务需求,快速响应并落地实现。

更新于 2025-07-22
logo of baidu
社招2-5年ACG

负责百度自研分布式文件存储NAS的研发和运维工作 负责百度自研并行文件存储的研发和运维工作 负责百度文件存储相关的公有云产品研发 负责百度文件存储相关的私有化产品研发

更新于 2025-10-11