logo of aliyun

阿里云阿里云智能-服务器存储软硬件结合技术专家-北京/杭州

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


1. 5年以上存储领域的工作背景,有存储软件/硬件/开发和产品化经验。
2. 高质量C/C++/Go/Python代码开发经验,从系统设计、开发到测试、维护的项目全生命周期。
3. 有高性能存储技术研发经验(SPDK,DPDK等),对大容量存储硬件(如SAS/SATA HDD, tape),网络(rdma,智能网卡),以及数据中心架构有实际开发并工程化、产品化的经验者加分。
4. 有国产化CPU平台性能…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 深入理解高密存储介质部件软硬件技术,熟悉存储介质(如CMR HDD,SMR HDD,TAPE等)、存储互联技术(如Ethernet,RDMA等)架构以及产品,文件系统和设备驱动的架构和实现, 开发软硬件一体化的高性能存储产品满足阿里巴巴云数据中心的业务挑战和需要。
2. 深入理解存储业务应用,对分布式文件系统,块存储,对象存储,文件存储,以及大数据平台进行深入分析,了解阿里业务情况与用户需求,制高性能,低成本存储软硬件技术和产品的发展路线。
3. 与阿里云各软硬件团队合作,开发针对大容量,高性能存储的存储引擎、文件系统等。
包括英文材料
C+
C+++
Go+
还有更多 •••
相关职位

logo of xiaohongshu
社招后端开发

1、构建及维护操作系统基础环境,负责线上服务器操作系统底层基础模块的稳定运行。 2、优化操作系统、内核、服务器等运行环境,提升小红书整体业务性能。 3、结合软硬件及k8s调度技术,提供体系的解决方案,给上层应用带来稳定性的提升及成本的下降,包括但不限定于混部,超卖等技术。 4、负责构建实时、稳定的全链路跟踪系统,聚焦linux、服务器、交换机等基础设施的故障定界。

更新于 2025-09-13北京|上海|杭州
logo of aliyun
社招5年以上云智能集团

1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 围绕 高性能、低延迟 的分布式存储系统,负责新机型及新型硬件技术选型与系统架构的设计适配,评估其对性能、可靠性、成本和运维的影响,输出硬件引入可行性方案。 2. 负责深度参与软硬件协同调优,结合自研分布式存储软件栈与底层硬件特性,在 CPU 性能热点调优、异构计算加速、端网一体 等层面进行联合优化,取得吞吐最大化、延迟SLA有保障的系统优化结果。 3. 负责构建并实施覆盖兼容性、稳定性与性能的多维度验证体系,针对不同CPU、存储介质、网络架构,开展大规模自动化测试与长期压力验证,确保硬件满足生产环境SLA要求。 4. 负责推动新硬件在生产环境的标准化导入与灰度上线验证,制定硬件准入规范、监控指标与故障应急机制,协同运维、SRE与供应链团队完成从灰度到规模化部署的过程。 5. 负责持续跟踪存储与服务器硬件前沿技术,开展预研验证与原型测试,为下一代存储架构演进提供技术储备与决策依据。

更新于 2025-11-20北京|杭州
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。

更新于 2026-03-28上海|北京