logo of aliyun

阿里云阿里云智能-软硬协同存储研发专家-AI领域-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1.熟练使用C/C++/Python语言进行分布式存储系统软件开发。
2.熟悉分布式存储技术、用户态存储软件栈、软硬协同技术开发、闪存存储或者磁盘存储技术等技术与方法,在上述某些技术方面有过实践与经历。
3.熟悉存储机型、存储新硬件、对下一代存储软硬件技术的发展有一定的认…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.参与并负责存储系统数据链路的设计、开发工作,包括面向闪存、非易失性介质、海量磁盘介质的存储系统软件设计与开发。
2.负责新存储机型、新硬件的适配,从事软硬协同设计的技术研发,具体包括ZNS SSD新硬件的软硬协同设计、众核技术架构技术优化、面向下一代高性能及海量存储机型的软硬协同设计等。
3.深入云存储业务场景,针对人工智能、大数据分析、海量存储、高性能低延迟场景进行存储系统架构设计、性能优化、效能提升与系统优化,演进下一代存储系统。
4.参与存储业务线的技术支持,和业务线进行协同配合,定位解决分布式存储引擎存在的问题,保障线上业务稳定生产。
包括英文材料
C+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能集团

1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州
logo of aliyun
社招5年以上云智能集团

1、负责计算存储通道服务的数据面研发,在 CIPU、BlueField DPU、物理机 Host 等各类硬件平台中,构建计算产品访问存储产品的虚拟通道,通过DPU卸载、高性能软件架构、软硬件协同优化、与存储层协同优化等方法,持续提升通道服务的安全、性能、成本、灵活性、可观测可运维性,在超大规模部署中放大技术价值并沉淀新想法融入下一代CIPU、DPU 的需求定义和设计; 2、负责计算存储通道服务的管控面研发,在智算、通用计算、Serverless 计算等丰富的计算产品中,支持对多种 Serverless、多租的存储产品的访问管理(包括通道设备管理、访问控制、租户隔离、QoS 管理等等),构建统一灵活、高可用、大规模的中心管控服务,与数据面、计算端 Guest OS 和容器平台深度融合的单机管控链路,以及智能的数据分析链路; 3、深入学习和理解 AI 智算、数据湖仓、搜索推荐广告、云原生中间件等业务场景中的存储访问需求,与计算和存储产品团队协作,提供有竞争力的产品新功能和架构方案设计,并推动解决方案的落地;

更新于 2025-12-01北京
logo of bytedance
社招5年以上A127410

团队介绍:字节跳动基础架构数据库团队,致力于构建认知型数据基础设施,持续定义数据技术的未来边界。团队基于全栈自研技术,打造了涵盖关系型数据库、NoSQL 数据库、大规模图平台、多模态搜索、云原生中间件等十余项产品的数据库矩阵,用独创的技术架构实现事务处理、混合查询、智能检索等全场景覆盖。我们不仅支撑集团核心业务,更通过火山引擎为客户提供具备企业级稳定性的数据库产品,助力客户以数据驱动实现业务增长。团队在大规模分布式架构、极致性能计算/存储引擎、软硬协同优化等领域具备顶尖技术积淀。面向 AI 时代,我们正在突破传统架构边界:一方面深化 AI 原生驱动内核、AI 算子优化等创新方向,推动数据库向智能 Copilot 演进;另一方面聚焦超大规模图计算、分布式跨模态数据联邦查询等前沿领域,构建支持跨模态数据管理的下一代设施。我们践行“务实浪漫”的极客文化,既在 VLDB 、SIGMOD 等顶级会议持续输出突破性成果,又以商业落地为导向打造全场景的产品矩阵。团队汇聚众多顶尖数据库专家和卓越工程师,分布在国内/海外多地。现诚邀具备数据库内核研发经验、分布式系统架构能力及 AI 创新视野的优秀人才,共同探索技术无人区,定义 AI 时代的数据基座,赋能全球企业实现 AI 驱动的业务变革。 1、负责AI时代的数据库架构设计:涵盖支持AI/ML工作负载的新型数据库系统架构,优化AI模型训练与推理的数据访问效率;构建支持向量搜索、图计算、时序分析等AI场景的混合型数据库解决方案,探索LLM大模型与数据库系统的深度集成方案,如自然语言SQL生成、智能查询优化; 2、负责数据库智能策略研发:研发基于 AI 的数据库性能调优系统,包括自动索引推荐、查询计划优化、资源分配策略等;构建智能监控系统,实现异常检测、根因分析、容量预测等AIOps能力;开发自适应存储引擎,根据数据访问模式动态调整存储结构; 3、负责AI数据基础设施构建:构建AI数据基础设施,如支持特征工程、模型训练、推理服务的全流程数据管道架构,实现数据库与机器学习框架(TensorFlow/PyTorch)的高效对接; 4、负责AI与数据库结合的实践方案探索与落地:探索AI技术和数据库各产品结合的最佳实践方案并落地,服务超大规模的集团内部业务及火山引擎业务。

更新于 2025-03-04北京
logo of xiaohongshu
社招3-5年引擎

【业务介绍】 作为公司统一的模型训练引擎团队,支撑公司内所有搜推广类业务的训练工程侧工作,包括模型训练、参数服务器、特征样本流水线等,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。 为公司核心的搜广推业务提供关键的模型训练引擎支撑,解决超大规模稀疏特征训练的核心问题,不断挖掘异构硬件算力,为公司搜广推业务增长提供保障,并获得快速的成长与提升。 【岗位职责】 1、负责小红书搜广推业务线的机器学习训练框架的研发与迭代,核心支持公司所有相关业务场景; 2、深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化,实现软硬件协同的极致训练效率; 3、跨团队合作,与公司算法部门深度协同,针对关键项目开展算法与系统的联合优化,推动解决实际业务挑战; 4、推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地; 5、跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势。

更新于 2025-11-11北京|上海