阿里云阿里云智能-并行文件系统研发专家-杭州/上海
社招全职5年以上云智能集团地点:杭州 | 上海状态:招聘
任职要求
1、精通 C/C++ 或 Java,具有系统软件或分布式系统开发经验,熟悉至少一门脚本语言; 2、深入理解分布式系统容灾设计原理,有跨可用区系统开发或高可用架构设计经验者优先,熟悉 NVMe 协议者优先; 3、熟悉企业级文件系统、分布式文件系统或存储引擎的容灾机制,包含但不限于 Ext4, HDFS, GFS, Lustre, GPFS, Ceph, GlusterFS, JuiceFS, RocksDB 等; 4、5年以上云计算、互联网、 IT 开发相关工作经验; 5、工作态度严谨,有技术热情,具备良好的学习能力、沟通能力,团队协作和分析解决问题的能力。
工作职责
1、负责并行文件系统容灾设计与研发,构建并行文件系统的跨可用区容灾能力,设计并实现数据的多副本分布、服务的故障自动切换,并基于网络延迟进行拓扑优化; 2、负责并行文件系统的性能调优,参与各种复杂业务场景的分布式文件系统的设计与研发,实现和完善系统高可用、高可靠、高性能设计; 3、负责并行文件系统的稳定性,保障跨可用区架构在高并发场景下的稳定性,通过压测、故障注入、端到端容灾演练验证容灾效果,通过提升模块的可观测性、完善容灾 SOP 设计与验证等方式,实现系统的长期稳定运行。
包括英文材料
C+
https://www.freecodecamp.org/chinese/news/the-c-beginners-handbook/
本手册遵循二八定律。你将在 20% 的时间内学习 80% 的 C 编程语言。
https://www.youtube.com/watch?v=87SH2Cn0s9A
https://www.youtube.com/watch?v=KJgsSFOSQv0
This course will give you a full introduction into all of the core concepts in the C programming language.
https://www.youtube.com/watch?v=PaPN51Mm5qQ
In this complete C programming course, Dr. Charles Severance (aka Dr. Chuck) will help you understand computer architecture and low-level programming with the help of the classic C Programming language book written by Brian Kernighan and Dennis Ritchie.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
脚本+
[英文] Scripting language
https://en.wikipedia.org/wiki/Scripting_language
https://zhuanlan.zhihu.com/p/571097954
一个脚本通常是解释执行而非编译。脚本语言通常都有简单、易学、易用的特性,目的就是希望能让程序员快速完成程序的编写工作。
高可用+
https://redis.io/blog/high-availability-architecture/
A high available architecture is when there are a number of different components, modules, or services that work together to maintain optimal performance, irrespective of peak-time loads.
https://www.ibm.com/think/topics/high-availability
High availability (HA) is a term that refers to a system’s ability to be accessible and reliable close to 100% of the time.
系统设计+
https://roadmap.sh/system-design
Everything you need to know about designing large scale systems.
https://www.youtube.com/watch?v=F2FmTdLtb_4
This complete system design tutorial covers scalability, reliability, data handling, and high-level architecture with clear explanations, real-world examples, and practical strategies.
HDFS+
https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
The Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware.
https://www.ibm.com/cn-zh/think/topics/hdfs
Hadoop 分布式文件系统 (HDFS) 是一种管理大型数据集的文件系统,可在商用硬件上运行。
Ceph+
https://docs.ceph.com/en/squid/start/beginners-guide/
The purpose of A Beginner’s Guide to Ceph is to make Ceph comprehensible.
https://www.youtube.com/watch?v=oEKJnHAfSiw
RocksDB+
https://rocksdb.org/docs/getting-started.html
The RocksDB library provides a persistent key value store.
相关职位
社招5年以上云智能集团
1、负责并行文件系统传输加密,构建并行文件系统的端到端加密框架,实现数据传输层的 TLS 加密; 2、负责并行文件系统的 NFS 协议研发,参与多机头 NFS v4.1 服务端协议状态机开发和维护; 3、负责并行文件系统的稳定性,保障加密模块与协议服务在高并发场景下的稳定性,通过压测、故障注入、端到端等测试验证加密对性能影响,并通过提升模块的可观测性、完善 SOP 设计与验证等方式,来实现系统的长期稳定运行。
更新于 2025-08-21
社招8年以上技术类-开发
1、负责应对各种复杂业务场景的分布式文件系统的设计与研发,包含高可用高可靠高性能设计,文件系统核心 IO 栈的研发; 2、负责高性能并行文件存储元数据的设计和研发,包含分布式元数据管理,分布式事务等关键技术,以及对应的稳定性工程,包括但不限于系统的可观测性、FaultTolerance、多租户 QoS系统研发。
更新于 2025-04-15
社招5年以上云智能集团
1、负责并行文件系统的架构设计,设计并实现高性能、可扩展的并行文件系统架构。参与关键模块的研发,主导高效的目录树架构和数据路径性能可扩展架构。 2、负责稳定性架构,系统在高性能的同时,具备面向失败的设计,建设稳定性工程能力,构建可观测系统,夯实稳定安全能力。
更新于 2025-09-05