字节跳动高级存储研发专家-基础技术
任职要求
1、熟悉SPDK/VIRTIO/NVME等相关的存储领域知识,有Virtio或SPDK实际项目开发经验; 2、了解X86,PCIE,内核存储,网络(TCP/IP、RoC…
工作职责
1、负责字节跳动自研DPU卡上的存储驱动(NVME/VIRTIO)、存储加速卸载、高性能存储接入栈(ByteLight)等相关研发工作,聚焦于DPU卡上存储栈开发; 2、持续跟踪业界存储领域的发展趋势,探索NVME、分布式块存储、虚拟化存储(Vhost/Virtio)、容器存储(CSI)、AEP等在软硬一体化加速方向上的演进路线,尤其是结合DPU卡的下一代存储架构的演进方向。
字节DPU 团队致力于构建字节跳动集团以及火山引擎公有云的计算基础设施底座,致力于下一代云计算领域底层软硬件技术(计算/网络/存储)的研发和探索,含下一代的软硬一体虚拟化 Hypervisor 底座、自研用户态网络协议栈、高速传输协议机及应用、虚拟网络交换机、高性能存储栈等技术方向的生产开发与前沿探索。 1、负责字节跳动自研DPU卡上的存储驱动(NVME/VIRTIO)、存储加速卸载、高性能存储接入栈(ByteLight)等相关研发工作,聚焦于DPU卡上存储栈开发; 2、持续跟踪业界存储领域的发展趋势,探索NVME、分布式块存储、虚拟化存储(Vhost/Virtio)、容器存储(CSI)、AEP等在软硬一体化加速方向上的演进路线,尤其是结合DPU卡的下一代存储架构的演进方向。
我们是字节跳动基础架构-私有云团队,主要为今日头条、抖音、国际化短视频、飞书、电商等内部业务提供云基础服务,覆盖服务研发的全生命周期,包括微服务框架、服务发布、服务治理、多云管理以及经营分析平台等方向。团队拥有超大规模的微服务数量、全球化的部署体系、复杂的多云场景。极致的服务性能、简单易用的研发体验、一致的多云管理以及精确的经营分析是团队持续追求的目标。 1、负责云平台的设计与开发工作,负责云平台的基础组件服务,包括但不限于:云服务管控、大规模资源调度系统、商品管理、经营分析、计费计量、报表平台、云平台资源、配额、预算、权限等横向平台建设; 2、抽象多云适配层,适配不同云环境,构建用云过程自助服务,业务通过简单操作,自动完成微服务、配置、存储数据的迁移流程; 3、构建高效稳定的云平台元数据管理服务、云平台构建和高级资源编排服务; 4、负责字节跳动基础架构技术中台交易体系的核心商品域业务需求开发、系统维护,完成需求分析、方案设计和实现; 5、负责商品系统的类目、成本、定价、规格等多个子域的系统设计与维护; 6、负责承载亿级应用程序引擎的研发:负责字节跳动业务架构设计构建高效的在离线服务托管平台; 7、设计研发PaaS/FaaS的关键组件,打造业界领先的无服务器平台Serverless。
我们是字节跳动基础架构-私有云团队,主要为今日头条、抖音、国际化短视频、飞书、电商等内部业务提供云基础服务,覆盖服务研发的全生命周期,包括微服务框架、服务发布、服务治理、多云管理以及经营分析平台等方向。团队拥有超大规模的微服务数量、全球化的部署体系、复杂的多云场景。极致的服务性能、简单易用的研发体验、一致的多云管理以及精确的经营分析是团队持续追求的目标。 1、负责云平台的设计与开发工作,负责云平台的基础组件服务,包括但不限于:云服务管控、大规模资源调度系统、商品管理、经营分析、计费计量、报表平台、云平台资源、配额、预算、权限等横向平台建设; 2、抽象多云适配层,适配不同云环境,构建用云过程自助服务,业务通过简单操作,自动完成微服务、配置、存储数据的迁移流程; 3、构建高效稳定的云平台元数据管理服务、云平台构建和高级资源编排服务; 4、负责字节跳动基础架构技术中台交易体系的核心商品域业务需求开发、系统维护,完成需求分析、方案设计和实现; 5、负责商品系统的类目、成本、定价、规格等多个子域的系统设计与维护; 6、负责承载亿级应用程序引擎的研发:负责字节跳动业务架构设计构建高效的在离线服务托管平台; 7、设计研发PaaS/FaaS的关键组件,打造业界领先的无服务器平台Serverless。
1、技术方案设计 • 收集、识别、分析DCN, AI infra 需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的DCN, AI infra 的发展趋势,参与UEC, SONiC等开源社区的工作, 并根据业务需要提供新的技术支持和建议, 让阿里的发展方向和业界的发展方向吻合。 5、技术规划 • 理解AI infra的战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。