阿里云阿里云智能-文件系统研发专家-AI领域-杭州/上海
任职要求
1. 编程基本功扎实,精通C/C++,熟悉至少一门脚本语言; 2. 熟悉传统企业级文件系统、分布式文件系统或各类存储引擎者优先,包含但不限于 Ext4、HDFS, GFS, Lustre, GPFS, Ceph, GlusterFS, RocksDB等; 3. 具有高并发和超大规模分布式系统的设计,开发和性能…
工作职责
1. 负责高性能并行文件系统中,新型存储介质、RDMA 网络相关性能分析工具开发和性能验证; 2. 结合存储硬件演进,负责并行文件系统的存储引擎在性能、成本、稳定性多维度的持续优化; 3. 与硬件团队合作进行软硬件结合设计,负责相关的存储软件设计和性能优化。
1. 负责文件系统核心 IO 栈的研发,参与数据路径和元数据路径的技术方案设计和研发,以及规模、性能、成本优化; 2. 负责分布式文件系统的稳定性和质量,包括但不限于系统的模块可观测性、FaultTolerance、确保数据正确性和系统稳定性; 3. 参与各种复杂业务场景的分布式文件系统的设计与研发,实现和完善系统高可用、高可靠、高性能设计。
智算存储技术开发专家将负责开发阿里云智算存储的数据的备份,容灾,同步,分层,治理子系统的研发,日常工作包括但不限于: 1. 设计和开发针对智算数据的大规模分布式数据保护与管理系统,包括但不限于数据重删,压缩,存储,复制,归档,分析功能,同时对系统的监控和运维能力负责,保证系统安全性和可靠性; 2. 测试,调优和运维大规模公共云服务和分布式存储系统; 3. 保持前瞻性, 随着业务复杂性, 负载增加, 运行管理复杂性的增加, 持续的推动系统设计的重构。
⁃ 解决千亿级元数据索引效率的问题,支撑海量文件的查询访问效率以及元数据扩展性问题,提供性能卓越扩展良好的元数据服务。 ⁃ 高效的blob存储格式,编写高质量、可扩展、高可用、性能卓越的存储底层核心模块,对模块质量负责。 ⁃ 负责性能IO链路,对小文件聚合、大文件切片、EC编码等核心功能负责。 ⁃ 基于业界主流的AI训练加速方案,打造符合蚂蚁特点的高性能AI存储/缓存产品,为大模型、海量多模态数据的高并发训练提供存储底座,为AI算力持续增长提供基础设施侧保障。 ⁃ 负责存储产品的长期技术演进及稳定性保障,对上层业务效果负责。
1、技术方案设计 • 收集、识别、分析平台设计目标及管理需求,围绕资源管理平台确定相应技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,结合当前的技术架构进行合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护资源管理平台核心业务模块,优化程序性能等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等; • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作。 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高平台系统安全性及客户使用体验。 4、技术预研 • 跟踪和了解国内外资源管理平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议。 5、技术规划 • 理解业务重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。