阿里云阿里云智能-对象存储技术专家-AI领域-杭州
任职要求
1. 精通C/C++开发,熟悉脚本语言开发,有大型C/C++项目开发背景、高性能开发背景者优先; 2. 深入理解分布式系统,有存储系统经验者优先; 3. 深入理解Linux内核机制,有软硬件协同开发、系统级性能优化相…
工作职责
1. 负责不同机型的性能调优和稳定性验证,以保障线上运行的稳定性; 2. 负责异构系统的设计和研发,包括针对异构机器上服务的自适应调度、资源控制、性能优化等; 3. 负责OSS服务层特性的设计和研发,包括但不限于:针对高性能存储的架构开发,功能特性设计和优化,以及结合硬件系统特性进行系统优化等。
1. 深入理解存储介质部件软硬件技术,熟悉存储介质(如CMR HDD,SMR HDD,NVME SSD,SCM等)、存储互联技术(如Ethernet,RDMA等)架构以及产品,文件系统和设备驱动的架构和实现, 开发软硬件一体化的高性能存储产品满足阿里巴巴云数据中心的业务挑战和需要; 2. 深入理解存储业务应用,对分布式文件系统,块存储,对象存储,文件存储,以及大数据平台进行深入分析,了解阿里业务情况与用户需求,制高性能,低成本存储软硬件技术和产品的发展路线; 3 深入理解AI场景训练推理存储系统需求及存储容器化部署方案,结合业务场景需求制定开发面向AI场景训练,推理存储软硬件一体化解决方案; 4. 与阿里云各软硬件团队合作,开发针对大容量,高性能存储的存储引擎、文件系统等。
智算存储技术开发专家将负责开发阿里云智算存储的数据的备份,容灾,同步,分层,治理子系统的研发,日常工作包括但不限于: 1. 设计和开发针对智算数据的大规模分布式数据保护与管理系统,包括但不限于数据重删,压缩,存储,复制,归档,分析功能,同时对系统的监控和运维能力负责,保证系统安全性和可靠性; 2. 测试,调优和运维大规模公共云服务和分布式存储系统; 3. 保持前瞻性, 随着业务复杂性, 负载增加, 运行管理复杂性的增加, 持续的推动系统设计的重构。
1. 负责文件存储可观测性指标体系设计实现,定义监控指标埋点和采集流程标准、定义产品全链路关键性能指标、实现数据和元数据全链路请求追踪方案、构建多层级监控体系,支持实时监控与历史趋势分析。 2. 负责文件存储异常诊断系统,基于可观测性指标体系开发故障根因分析和定位能力,基于 AI Agent 构建故障分析和故障处理方案智能推荐。 3. 与客户支持团队对接,提供可观测工具,辅助 SRE 团队快速响应客户问题。
团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、负责机器学习系统存储相关组件的设计和开发,服务于各方向场景(LLM/CV/Speech等)的数据加载模块和模型状态持久化,从而优化任务IO性能,提升有效训练时间; 2、负责设计和实现面向机器学习场景的文件系统,使用内存、SSD、HDD以及云端对象存储等介质进行数据的持久化存储和管理,均衡的优化存储性能与成本; 3、负责Kubernetes场景下各类存储系统的接入、管理、治理、监控; 4、负责多机房、多地域、多云场景的在任务数据联合调度,优化跨区域数据传输,实现负载的合理化分布。