logo of aliyun

阿里云阿里云云智能-IaaS集成与研发专家/高级专家-存储方向

社招全职技术类-开发地点:北京 | 杭州状态:招聘

任职要求


1. 扎实的编程基础,熟悉C/C++/Go等编程语言,熟悉多并发与高性能编程。
2. 熟悉分布式存储引擎设计,熟悉分布式一致性协议、高性能存储等前沿技术,具备文件系统核心模块开发经验。
3. 了解NVMe协议栈与SSD,熟悉SPDK与用户态文件系统。
4. 熟悉GPU或相关AI加速芯片,熟悉主流深度学习框架(TensorFlow/PyTorch等),了解相关底层实现。
5. 具备良好的沟通能力和问题解决能力,乐于合作,创新思维,能够在复杂的技术挑战中找到有效的解决方案。
6. 如果你热爱技术、热衷于新技术的学习应用,对学习能力有信心,上述要求不完全具备也没关系,我们欢迎自信、热爱技术的同学。

工作职责


1. 负责智算高性能存储系统架构设计与开发,面向AI训练场景的高性能并行文件系统模块开发,设计多级元数据服务架构,支撑海量文件与高吞吐数据流。
2. 软硬件定义,机型设计,构建存算协同机制,实现GPU Direct Storage、KV Cache/Share,不断提升存储系统性能和减少计算。
3. 保障存储系统高可用与数据安全,通过分布式强一致性、同/异步复制提升数据可靠性,设计系统自愈能力应对磁盘/节点异常,增强系统可观测和易运维能力,并通过测试与故障注入得到验证。
包括英文材料
C+
C+++
Go+
深度学习+
TensorFlow+
PyTorch+
相关职位

logo of tencent
社招3年以上腾讯云-计算产品

1.深度研究 AI 技术趋势,结合腾讯云分布式云的产品架构与特点,设计分布式云与腾讯云全栈AI能力的融合,以满足客户在本地化场景下的智算需求,推动产品在 AI 领域的差异化竞争; 2.通过与客户、销售团队及行业专家紧密沟通,精准挖掘客户对于本地化智算的 AI 需求,将其转化为具体的产品功能特性。依据市场反馈和用户需求,持续优化分布式云与 AI 融合的产品功能,提升产品的用户体验和市场竞争力; 3.协同研发、算法、测试等多部门团队,确保 AI 相关功能在分布式云产品中的顺利集成与迭代。制定项目计划,明确各阶段目标与交付物,有效把控项目进度,及时解决项目推进过程中的技术难题与跨部门协作问题,保障产品按时、高质量交付; 4.参与产品的市场推广活动,向客户、合作伙伴及行业媒体清晰阐述分布式云与 AI 融合产品的价值与优势,提升产品知名度与影响力。为销售团队提供专业的技术支持,协助其开展客户拓展与项目投标工作,处理客户在使用过程中的技术咨询与问题反馈。

更新于 2025-09-12
logo of bytedance
社招A174558

团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。

更新于 2024-07-05
logo of bytedance
社招A70425

团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。

更新于 2024-07-30
logo of bytedance
社招A175910

团队介绍:IaaS字节跳动基础架构IaaS团队致力于不断创新,推动云计算产业发展和IaaS架构演进。作为云计算基座我们服务了字节跳动旗下包括抖音、今日头条、西瓜视频、飞书等明星产品, 并通过火山引擎云基础产品服务外部客户:包括金融、汽车、游戏、电商、社交媒体、高端制造、科研院所等各行各业的丰富场景, 为亿级用户量的APP和ToB业务提供安全、稳定、高性价比的算力。 我们坚持全栈自研,软硬一体,全面拥抱云原生, 在技术上追求极致: -基于智能库存调度、精细化监控以及自动化运维能力, 来管理遍布全球超百万台规模的服务器集群; -自研高吞吐、低延迟、高弹性的网关网元以及高弹性高并发的计算存储服务来应对抖音春晚、双十一等各种流量洪峰; -打造万卡超大规模的GPU集群, 与机器学习平台、火山方舟一起构建了从基础设施到模型生态的完整解决方案; -此外,还提供和火山引擎公有云同源架构的veStack混合云平台,支撑客户的本地化部署和跨云资源的弹性伸缩等。 1、负责大模型训练和推理所需的IaaS基础设施的规划、建设与维护; 2、与业务团队密切合作,支持业务新算法和模型的集成,并优化其在IaaS基础设施上的性能; 3、开发和维护自动化工具,提高大规模模型基础设施的可观测性、可扩展性和可管理性; 4、跟踪业界AI新兴技术和行业趋势,参与新技术的研究与应用,推动基础设施的持续升级。

更新于 2024-07-09