logo of aliyun

阿里云阿里云智能-并行文件系统研发专家-AI领域-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1、编程基本功扎实,精通C/C++,熟悉至少一门脚本语言;
2、熟悉传统企业级文件系统、分布式文件系统或各类存储引擎者优先,包含但不限于 Ext4、XFS、OneFS、HDFS, GFS, Lustre, GPFS, Ceph, Glust…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责应对各种复杂业务场景的分布式文件系统的设计与研发,包含高可用高可靠高性能设计,文件系统核心 IO 栈的研发;
2、负责分布式文件系统的稳定性工程,包括但不限于系统的可观测性、FaultTolerance、多租户 QoS系统研发;
3、负责文件系统性能优化,包括 FileServer 软件栈的分析和优化,以及分布式文件系统协议的分析和优化;
4、负责系统流量分类识别和性能隔离能力建设,提升系统负载均衡和流量调度能力,增强稳定性。
包括英文材料
C+
C+++
脚本+
HDFS+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 负责高性能并行文件系统中,新型存储介质、RDMA 网络相关性能分析工具开发和性能验证; 2. 结合存储硬件演进,负责并行文件系统的存储引擎在性能、成本、稳定性多维度的持续优化; 3. 与硬件团队合作进行软硬件结合设计,负责相关的存储软件设计和性能优化。

更新于 2025-11-23杭州|上海
logo of futu
社招技术类

底层推理基础设施建设:负责 GPU / TPU 集群管理、异构资源调度与高性能网络优化 实现弹性伸缩、自动修复与多机多卡高效并行。推理引擎深度优化:基于 vLLM、TensorRT-LLM、DeepSpeed-Inference、Pagoda 等框架进行分片并行、张量并行、量化(FP8 / INT4)与编译优化。算法 × 工程协同:与算法工程师联合设计离线训练、在线推理的完整链路,推进模型版本管理、灰度发布、回滚与 A/B 测试,确保模型效果与系统稳定性的双重 SLA。高性能存储与缓存:架设高速并行文件系统或 KV-Store,优化 KV-Cache 热点、RDMA / RoCE 网络,降低 I/O 与通信开销。Observability & SRE:构建完整的 Metrics / Tracing / Logging 体系(Prometheus、Grafana、Jaeger、Loki),定义 SLO / SLI 并实施容量规划。技术前瞻与研究:持续跟踪新硬件(H100, MI300, Grace Hopper)、编译器(TVM, XLA, One-Inference)与调度算法,推动架构演进。

更新于 2025-08-27深圳
logo of aliyun
社招技术类-开发

1. 负责智算高性能存储系统架构设计与开发,面向AI训练场景的高性能并行文件系统模块开发,设计多级元数据服务架构,支撑海量文件与高吞吐数据流。 2. 软硬件定义,机型设计,构建存算协同机制,实现GPU Direct Storage、KV Cache/Share,不断提升存储系统性能和减少计算。 3. 保障存储系统高可用与数据安全,通过分布式强一致性、同/异步复制提升数据可靠性,设计系统自愈能力应对磁盘/节点异常,增强系统可观测和易运维能力,并通过测试与故障注入得到验证。

更新于 2025-06-09北京|杭州
logo of aliyun
社招5年以上云智能集团

1、负责并行文件系统容灾设计与研发,构建并行文件系统的跨可用区容灾能力,设计并实现数据的多副本分布、服务的故障自动切换,并基于网络延迟进行拓扑优化; 2、负责并行文件系统的性能调优,参与各种复杂业务场景的分布式文件系统的设计与研发,实现和完善系统高可用、高可靠、高性能设计; 3、负责并行文件系统的稳定性,保障跨可用区架构在高并发场景下的稳定性,通过压测、故障注入、端到端容灾演练验证容灾效果,通过提升模块的可观测性、完善容灾 SOP 设计与验证等方式,实现系统的长期稳定运行。

更新于 2025-08-18杭州|上海