logo of bytedance

字节跳动智能计算体系结构与操作系统研究员-STE团队-筋斗云人才计划

校招全职A65740地点:深圳状态:招聘

任职要求


1、获得博士学位,软件工程、计算机、数学、人工智能相关专业优先;
2、具备优秀的计算机体系结构能力,拥有出色的代码能力、扎实的数据结构和基础算法功底,熟练掌握C/C++GoPython;
3、熟悉Linux操作系统、内核、网络等领域相关知识,有相关开发经验者优先,有性能调优方案经验者优先;
4、具备出色的问题分析和解决能力,有自主探索解决方案的能力;
5、拥有良好的沟通协作能力,能和团队一起探索新技术,推进技术进步;
6、具备出色的心理素质与应变能力,面对困难勇于迎接挑战;面对复杂局面沉着、冷静、灵活。

工作职责


团队介绍:字节跳动STE团队一直致力于操作系统内核与虚拟化,系统基础软件与基础库的构建和性能优化、超大规模数据中心的系统稳定性和可靠性建设、新硬件与软件的协同设计等基础技术领域的研发与工程化落地,具备全面的基础软件工程能力,为字节上层业务保驾护航。

课题介绍:
背景:在当今数字化时代,随着云计算、人工智能和大数据技术的深度融合,现代数据中心正面临着指数级增长的算力需求与现有计算架构效能瓶颈之间的突出矛盾。传统以通用CPU为核心的体系架构在应对多样化负载时,暴露出诸多问题。例如,内存子系统带宽与时延约束导致的 “内存墙” 效应持续加剧,异构计算单元间的数据搬运开销占比超过实际运算时间,安全可信执行环境带来的性能损耗超过 30%,单机柜算力密度提升受限于功耗密度阈值。与此同时,新兴工作负载如AI训练、图计算、时序数据库等呈现出动态异构特征,对计算架构提出了差异化需求,传统固定架构难以实现最优能效比。
操作系统作为计算机体系结构下重要的软件基础设施与核心技术,在这样的背景下也面临着巨大的挑战。随着计算需求的增长和技术的进步,传统的同构计算环境已无法满足日益复杂的计算任务。现代计算场景中,硬件架构呈现高度异构化,包括 CPU、GPU、FPGA、TPU、NPU、DPU 等,同时边缘计算、云计算形成分布式网络。传统操作系统难以高效管理跨节点、跨架构的资源。加之人工智能训练等场景需要低延迟、高吞吐、安全可信,动态弹性的分布式系统支持,这就要求操作系统具备跨异构资源的统一抽象与调度能力。学术界和工业界对下一代计算机操作系统在分布式微内核架构,异构资源调度算法,跨层优化与编译器支持,安全可信技术,虚拟化和 Serverless,AI 驱动操作系统内核优化以及操作系统内置 AI 推理引擎等方面展开了积极的探索和研究。
课题挑战:
方向一:体系化结构方向
1)负载特征与架构优化:建立数据中心动态负载特征建模框架,深入研究面向数据中心Workload的体系结构设计与优化方法,使系统能够更好地适应多样化的负载需求;
2)CPU核心架构创新:研究高性能低功耗CPU核心架构,积极探索超标量流水线与数据流引擎的融合设计,提升CPU的性能和能效;
3)新型内存层次构建:构建支持存算一体化的新型内存层次结构,研究基于3D堆叠技术的近存计算架构,重点突破高带宽互连拓扑优化、混合内存控制器设计、内存访问模式预测算法,解决 “内存墙” 等问题;
4)安全可信架构构建:构建安全可信计算架构,包括侧信道攻击防御的微架构级实现、侧信道安全架构、自动侧 / 隐蔽通道泄漏检测,确保系统在复杂环境下的安全性和完整性;
5)数据中心架构创新:探索整机柜级系统总线扩展,构建内存语义互联的新型数据中心架构,研究基于新型总线协议 (CXL/UALink) 的全局内存共享机制,提升数据中心的整体性能和资源利用率;
6)可靠性增强技术研究:研究可靠性增强技术,包括开发基于机器学习的故障预测模型,设计自修复的微架构容错机制,研究硬件静默故障检测,以及系统及IP可靠性特性研究和数据分析,保障系统的稳定运行。
方向二:操作系统方向
1)操作系统关键技术突破:突破传统单机操作系统存在的硬件资源利用局限、功能扩展与升级运维复杂、数据管理与共享不足、安全性与可靠性欠佳等问题。在计算高度异构以及计算环境分布化的情况下,从硬件到软件建立完整的信任链,保证整个系统的安全性和完整性。同时,有效地管理和协调多个节点间的通信、数据同步及故障恢复,设计高效的调度算法来匹配任务需求与最适合的计算资源,以最大化性能和效率。操作系统需要能够理解不同类型的计算任务,并能根据实时的工作负载动态调整资源分配,实现跨异构资源的统一抽象与调度;
2)跨领域知识融合:本课题需要融合 OS、内核、算法、存储、虚拟化、网络、系统工程等多方面的跨领域知识和经验,以实现数据中心智能计算体系结构与操作系统的协同创新。
包括英文材料
学历+
数据结构+
算法+
C+
C+++
Go+
Python+
Linux+
内核+
性能调优+
相关职位

logo of bytedance
校招A35384A

团队介绍:字节跳动STE团队一直致力于操作系统内核与虚拟化,系统基础软件与基础库的构建和性能优化、超大规模数据中心的系统稳定性和可靠性建设、新硬件与软件的协同设计等基础技术领域的研发与工程化落地,具备全面的基础软件工程能力,为字节上层业务保驾护航。 课题介绍: 背景:在当今数字化时代,随着云计算、人工智能和大数据技术的深度融合,现代数据中心正面临着指数级增长的算力需求与现有计算架构效能瓶颈之间的突出矛盾。传统以通用CPU为核心的体系架构在应对多样化负载时,暴露出诸多问题。例如,内存子系统带宽与时延约束导致的 “内存墙” 效应持续加剧,异构计算单元间的数据搬运开销占比超过实际运算时间,安全可信执行环境带来的性能损耗超过 30%,单机柜算力密度提升受限于功耗密度阈值。与此同时,新兴工作负载如AI训练、图计算、时序数据库等呈现出动态异构特征,对计算架构提出了差异化需求,传统固定架构难以实现最优能效比。 操作系统作为计算机体系结构下重要的软件基础设施与核心技术,在这样的背景下也面临着巨大的挑战。随着计算需求的增长和技术的进步,传统的同构计算环境已无法满足日益复杂的计算任务。现代计算场景中,硬件架构呈现高度异构化,包括 CPU、GPU、FPGA、TPU、NPU、DPU 等,同时边缘计算、云计算形成分布式网络。传统操作系统难以高效管理跨节点、跨架构的资源。加之人工智能训练等场景需要低延迟、高吞吐、安全可信,动态弹性的分布式系统支持,这就要求操作系统具备跨异构资源的统一抽象与调度能力。学术界和工业界对下一代计算机操作系统在分布式微内核架构,异构资源调度算法,跨层优化与编译器支持,安全可信技术,虚拟化和 Serverless,AI 驱动操作系统内核优化以及操作系统内置 AI 推理引擎等方面展开了积极的探索和研究。 课题挑战: 方向一:体系化结构方向 1)负载特征与架构优化:建立数据中心动态负载特征建模框架,深入研究面向数据中心Workload的体系结构设计与优化方法,使系统能够更好地适应多样化的负载需求; 2)CPU核心架构创新:研究高性能低功耗CPU核心架构,积极探索超标量流水线与数据流引擎的融合设计,提升CPU的性能和能效; 3)新型内存层次构建:构建支持存算一体化的新型内存层次结构,研究基于3D堆叠技术的近存计算架构,重点突破高带宽互连拓扑优化、混合内存控制器设计、内存访问模式预测算法,解决 “内存墙” 等问题; 4)安全可信架构构建:构建安全可信计算架构,包括侧信道攻击防御的微架构级实现、侧信道安全架构、自动侧 / 隐蔽通道泄漏检测,确保系统在复杂环境下的安全性和完整性; 5)数据中心架构创新:探索整机柜级系统总线扩展,构建内存语义互联的新型数据中心架构,研究基于新型总线协议 (CXL/UALink) 的全局内存共享机制,提升数据中心的整体性能和资源利用率; 6)可靠性增强技术研究:研究可靠性增强技术,包括开发基于机器学习的故障预测模型,设计自修复的微架构容错机制,研究硬件静默故障检测,以及系统及IP可靠性特性研究和数据分析,保障系统的稳定运行。 方向二:操作系统方向 1)操作系统关键技术突破:突破传统单机操作系统存在的硬件资源利用局限、功能扩展与升级运维复杂、数据管理与共享不足、安全性与可靠性欠佳等问题。在计算高度异构以及计算环境分布化的情况下,从硬件到软件建立完整的信任链,保证整个系统的安全性和完整性。同时,有效地管理和协调多个节点间的通信、数据同步及故障恢复,设计高效的调度算法来匹配任务需求与最适合的计算资源,以最大化性能和效率。操作系统需要能够理解不同类型的计算任务,并能根据实时的工作负载动态调整资源分配,实现跨异构资源的统一抽象与调度; 2)跨领域知识融合:本课题需要融合 OS、内核、算法、存储、虚拟化、网络、系统工程等多方面的跨领域知识和经验,以实现数据中心智能计算体系结构与操作系统的协同创新。

更新于 2025-05-14
logo of bytedance
校招A231110

团队介绍:字节跳动STE团队一直致力于操作系统内核与虚拟化,系统基础软件与基础库的构建和性能优化、超大规模数据中心的系统稳定性和可靠性建设、新硬件与软件的协同设计等基础技术领域的研发与工程化落地,具备全面的基础软件工程能力,为字节上层业务保驾护航。 课题介绍: 背景:在当今数字化时代,随着云计算、人工智能和大数据技术的深度融合,现代数据中心正面临着指数级增长的算力需求与现有计算架构效能瓶颈之间的突出矛盾。传统以通用CPU为核心的体系架构在应对多样化负载时,暴露出诸多问题。例如,内存子系统带宽与时延约束导致的 “内存墙” 效应持续加剧,异构计算单元间的数据搬运开销占比超过实际运算时间,安全可信执行环境带来的性能损耗超过 30%,单机柜算力密度提升受限于功耗密度阈值。与此同时,新兴工作负载如AI训练、图计算、时序数据库等呈现出动态异构特征,对计算架构提出了差异化需求,传统固定架构难以实现最优能效比。 操作系统作为计算机体系结构下重要的软件基础设施与核心技术,在这样的背景下也面临着巨大的挑战。随着计算需求的增长和技术的进步,传统的同构计算环境已无法满足日益复杂的计算任务。现代计算场景中,硬件架构呈现高度异构化,包括 CPU、GPU、FPGA、TPU、NPU、DPU 等,同时边缘计算、云计算形成分布式网络。传统操作系统难以高效管理跨节点、跨架构的资源。加之人工智能训练等场景需要低延迟、高吞吐、安全可信,动态弹性的分布式系统支持,这就要求操作系统具备跨异构资源的统一抽象与调度能力。学术界和工业界对下一代计算机操作系统在分布式微内核架构,异构资源调度算法,跨层优化与编译器支持,安全可信技术,虚拟化和 Serverless,AI 驱动操作系统内核优化以及操作系统内置 AI 推理引擎等方面展开了积极的探索和研究。 课题挑战: 方向一:体系化结构方向 1)负载特征与架构优化:建立数据中心动态负载特征建模框架,深入研究面向数据中心Workload的体系结构设计与优化方法,使系统能够更好地适应多样化的负载需求; 2)CPU核心架构创新:研究高性能低功耗CPU核心架构,积极探索超标量流水线与数据流引擎的融合设计,提升CPU的性能和能效; 3)新型内存层次构建:构建支持存算一体化的新型内存层次结构,研究基于3D堆叠技术的近存计算架构,重点突破高带宽互连拓扑优化、混合内存控制器设计、内存访问模式预测算法,解决 “内存墙” 等问题; 4)安全可信架构构建:构建安全可信计算架构,包括侧信道攻击防御的微架构级实现、侧信道安全架构、自动侧 / 隐蔽通道泄漏检测,确保系统在复杂环境下的安全性和完整性; 5)数据中心架构创新:探索整机柜级系统总线扩展,构建内存语义互联的新型数据中心架构,研究基于新型总线协议 (CXL/UALink) 的全局内存共享机制,提升数据中心的整体性能和资源利用率; 6)可靠性增强技术研究:研究可靠性增强技术,包括开发基于机器学习的故障预测模型,设计自修复的微架构容错机制,研究硬件静默故障检测,以及系统及IP可靠性特性研究和数据分析,保障系统的稳定运行。 方向二:操作系统方向 1)操作系统关键技术突破:突破传统单机操作系统存在的硬件资源利用局限、功能扩展与升级运维复杂、数据管理与共享不足、安全性与可靠性欠佳等问题。在计算高度异构以及计算环境分布化的情况下,从硬件到软件建立完整的信任链,保证整个系统的安全性和完整性。同时,有效地管理和协调多个节点间的通信、数据同步及故障恢复,设计高效的调度算法来匹配任务需求与最适合的计算资源,以最大化性能和效率。操作系统需要能够理解不同类型的计算任务,并能根据实时的工作负载动态调整资源分配,实现跨异构资源的统一抽象与调度; 2)跨领域知识融合:本课题需要融合 OS、内核、算法、存储、虚拟化、网络、系统工程等多方面的跨领域知识和经验,以实现数据中心智能计算体系结构与操作系统的协同创新。

更新于 2025-05-14
logo of bytedance
校招A243013A

团队介绍:字节跳动STE团队一直致力于操作系统内核与虚拟化,系统基础软件与基础库的构建和性能优化、超大规模数据中心的系统稳定性和可靠性建设、新硬件与软件的协同设计等基础技术领域的研发与工程化落地,具备全面的基础软件工程能力,为字节上层业务保驾护航。 课题介绍: 背景:在当今数字化时代,随着云计算、人工智能和大数据技术的深度融合,现代数据中心正面临着指数级增长的算力需求与现有计算架构效能瓶颈之间的突出矛盾。传统以通用CPU为核心的体系架构在应对多样化负载时,暴露出诸多问题。例如,内存子系统带宽与时延约束导致的 “内存墙” 效应持续加剧,异构计算单元间的数据搬运开销占比超过实际运算时间,安全可信执行环境带来的性能损耗超过 30%,单机柜算力密度提升受限于功耗密度阈值。与此同时,新兴工作负载如AI训练、图计算、时序数据库等呈现出动态异构特征,对计算架构提出了差异化需求,传统固定架构难以实现最优能效比。 操作系统作为计算机体系结构下重要的软件基础设施与核心技术,在这样的背景下也面临着巨大的挑战。随着计算需求的增长和技术的进步,传统的同构计算环境已无法满足日益复杂的计算任务。现代计算场景中,硬件架构呈现高度异构化,包括 CPU、GPU、FPGA、TPU、NPU、DPU 等,同时边缘计算、云计算形成分布式网络。传统操作系统难以高效管理跨节点、跨架构的资源。加之人工智能训练等场景需要低延迟、高吞吐、安全可信,动态弹性的分布式系统支持,这就要求操作系统具备跨异构资源的统一抽象与调度能力。学术界和工业界对下一代计算机操作系统在分布式微内核架构,异构资源调度算法,跨层优化与编译器支持,安全可信技术,虚拟化和 Serverless,AI 驱动操作系统内核优化以及操作系统内置 AI 推理引擎等方面展开了积极的探索和研究。 课题挑战: 方向一:体系化结构方向 1)负载特征与架构优化:建立数据中心动态负载特征建模框架,深入研究面向数据中心Workload的体系结构设计与优化方法,使系统能够更好地适应多样化的负载需求; 2)CPU核心架构创新:研究高性能低功耗CPU核心架构,积极探索超标量流水线与数据流引擎的融合设计,提升CPU的性能和能效; 3)新型内存层次构建:构建支持存算一体化的新型内存层次结构,研究基于3D堆叠技术的近存计算架构,重点突破高带宽互连拓扑优化、混合内存控制器设计、内存访问模式预测算法,解决 “内存墙” 等问题; 4)安全可信架构构建:构建安全可信计算架构,包括侧信道攻击防御的微架构级实现、侧信道安全架构、自动侧 / 隐蔽通道泄漏检测,确保系统在复杂环境下的安全性和完整性; 5)数据中心架构创新:探索整机柜级系统总线扩展,构建内存语义互联的新型数据中心架构,研究基于新型总线协议 (CXL/UALink) 的全局内存共享机制,提升数据中心的整体性能和资源利用率; 6)可靠性增强技术研究:研究可靠性增强技术,包括开发基于机器学习的故障预测模型,设计自修复的微架构容错机制,研究硬件静默故障检测,以及系统及IP可靠性特性研究和数据分析,保障系统的稳定运行。 方向二:操作系统方向 1)操作系统关键技术突破:突破传统单机操作系统存在的硬件资源利用局限、功能扩展与升级运维复杂、数据管理与共享不足、安全性与可靠性欠佳等问题。在计算高度异构以及计算环境分布化的情况下,从硬件到软件建立完整的信任链,保证整个系统的安全性和完整性。同时,有效地管理和协调多个节点间的通信、数据同步及故障恢复,设计高效的调度算法来匹配任务需求与最适合的计算资源,以最大化性能和效率。操作系统需要能够理解不同类型的计算任务,并能根据实时的工作负载动态调整资源分配,实现跨异构资源的统一抽象与调度; 2)跨领域知识融合:本课题需要融合 OS、内核、算法、存储、虚拟化、网络、系统工程等多方面的跨领域知识和经验,以实现数据中心智能计算体系结构与操作系统的协同创新。

更新于 2025-05-14
logo of bytedance
校招A20756

Team Introduction: The ByteDance System Department is responsible for the R&D, design, procurement, delivery, and operational management of the company's infrastructure ranging from chips to servers, operating systems, networks, CDNs, and data centers. It provides efficient, stable, and scalable infrastructure to support global services such as Douyin, Toutiao, and Volcano Engine. The current areas of operation include, but are not limited to: the design and construction of data centers, chip R&D, server development, network engineering, Volcano Engine's edge-cloud services, high-performance intelligent hardware development, intelligent delivery and operation of IDC resources, intelligent monitoring and early warning of hardware infrastructure, operating systems and kernels, virtualization technologies, compilation toolchains, supply chain management, and many other infrastructure-related areas. 团队介绍: 字节跳动系统部,负责字节跳动从芯片到服务器、操作系统、网络、CDN 、数据中心等基础设施的研发、设计、采购、交付与运营管理,为包含抖音、头条、火山引擎等全球业务提供高效、稳定、具备可扩展性的基础设施。部门当前业务开展包括不限于:数据中心设计建设、芯片研发、服务器研发、网络工程研发、火山引擎边缘云业务、高性能智能硬件研发、IDC资源智能交付与运维、硬件基础设施智能监控与预警、操作系统与内核、虚拟化技术、编译工具链、供应链管理等众多基础设施相关方向。 课题介绍: 在当今数字化时代,随着云计算、人工智能和大数据技术的深度融合,现代数据中心正面临着指数级增长的算力需求与现有计算架构效能瓶颈之间的突出矛盾。传统以通用CPU为核心的体系架构在应对多样化负载时,暴露出诸多问题。例如,内存子系统带宽与时延约束导致的 “内存墙” 效应持续加剧,异构计算单元间的数据搬运开销占比超过实际运算时间,安全可信执行环境带来的性能损耗超过 30%,单机柜算力密度提升受限于功耗密度阈值。与此同时,新兴工作负载如AI训练、图计算、时序数据库等呈现出动态异构特征,对计算架构提出了差异化需求,传统固定架构难以实现最优能效比。 操作系统作为计算机体系结构下重要的软件基础设施与核心技术,在这样的背景下也面临着巨大的挑战。随着计算需求的增长和技术的进步,传统的同构计算环境已无法满足日益复杂的计算任务。现代计算场景中,硬件架构呈现高度异构化,包括 CPU、GPU、FPGA、TPU、NPU、DPU 等,同时边缘计算、云计算形成分布式网络。传统操作系统难以高效管理跨节点、跨架构的资源。加之人工智能训练等场景需要低延迟、高吞吐、安全可信,动态弹性的分布式系统支持,这就要求操作系统具备跨异构资源的统一抽象与调度能力。学术界和工业界对下一代计算机操作系统在分布式微内核架构,异构资源调度算法,跨层优化与编译器支持,安全可信技术,虚拟化和 Serverless,AI 驱动操作系统内核优化以及操作系统内置 AI 推理引擎等方面展开了积极的探索和研究。 课题挑战: 方向一:体系化结构方向 1)负载特征与架构优化:建立数据中心动态负载特征建模框架,深入研究面向数据中心Workload的体系结构设计与优化方法,使系统能够更好地适应多样化的负载需求; 2)CPU核心架构创新:研究高性能低功耗CPU核心架构,积极探索超标量流水线与数据流引擎的融合设计,提升CPU的性能和能效; 3)新型内存层次构建:构建支持存算一体化的新型内存层次结构,研究基于3D堆叠技术的近存计算架构,重点突破高带宽互连拓扑优化、混合内存控制器设计、内存访问模式预测算法,解决 “内存墙” 等问题; 4)安全可信架构构建:构建安全可信计算架构,包括侧信道攻击防御的微架构级实现、侧信道安全架构、自动侧 / 隐蔽通道泄漏检测,确保系统在复杂环境下的安全性和完整性; 5)数据中心架构创新:探索整机柜级系统总线扩展,构建内存语义互联的新型数据中心架构,研究基于新型总线协议 (CXL/UALink) 的全局内存共享机制,提升数据中心的整体性能和资源利用率; 6)可靠性增强技术研究:研究可靠性增强技术,包括开发基于机器学习的故障预测模型,设计自修复的微架构容错机制,研究硬件静默故障检测,以及系统及IP可靠性特性研究和数据分析,保障系统的稳定运行。 方向二:操作系统方向 1)操作系统关键技术突破:突破传统单机操作系统存在的硬件资源利用局限、功能扩展与升级运维复杂、数据管理与共享不足、安全性与可靠性欠佳等问题。在计算高度异构以及计算环境分布化的情况下,从硬件到软件建立完整的信任链,保证整个系统的安全性和完整性。同时,有效地管理和协调多个节点间的通信、数据同步及故障恢复,设计高效的调度算法来匹配任务需求与最适合的计算资源,以最大化性能和效率。操作系统需要能够理解不同类型的计算任务,并能根据实时的工作负载动态调整资源分配,实现跨异构资源的统一抽象与调度; 2)跨领域知识融合:本课题需要融合OS、内核、算法、存储、虚拟化、网络、系统工程等多方面的跨领域知识和经验,以实现数据中心智能计算体系结构与操作系统的协同创新。

更新于 2025-05-26