理想汽车【实习生】AI编译器实习生-图编译器方向
-结合前沿业务场景,构建昆仑芯AI大规模训练推理系统 -负责大模型分布式训练、推理框架的适配与调优,设计千卡级集群通信加速、混合精度训练等方案 -为昆仑芯AI芯片各系列高性能加速芯片提供软件栈,包括框架,图编译器以及周边产品的技术落地 -AI芯片性能深度学习高性能计算库开发,支持各种AI场景,持续提升系统效能
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动AML机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责字节跳动AML机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
团队介绍:字节跳动STE团队一直致力于操作系统内核与虚拟化,系统基础软件与基础库的构建和性能优化、超大规模数据中心的系统稳定性和可靠性建设、新硬件与软件的协同设计等基础技术领域的研发与工程化落地,具备全面的基础软件工程能力,为字节上层业务保驾护航。 课题介绍: 在当今数字化时代,随着云计算、人工智能和大数据技术的深度融合,现代数据中心正面临着指数级增长的算力需求与现有计算架构效能瓶颈之间的突出矛盾。传统以通用CPU为核心的体系架构在应对多样化负载时,暴露出诸多问题。例如,内存子系统带宽与时延约束导致的 “内存墙” 效应持续加剧,异构计算单元间的数据搬运开销占比超过实际运算时间,安全可信执行环境带来的性能损耗超过 30%,单机柜算力密度提升受限于功耗密度阈值。与此同时,新兴工作负载如AI训练、图计算、时序数据库等呈现出动态异构特征,对计算架构提出了差异化需求,传统固定架构难以实现最优能效比。 操作系统作为计算机体系结构下重要的软件基础设施与核心技术,在这样的背景下也面临着巨大的挑战。随着计算需求的增长和技术的进步,传统的同构计算环境已无法满足日益复杂的计算任务。现代计算场景中,硬件架构呈现高度异构化,包括 CPU、GPU、FPGA、TPU、NPU、DPU 等,同时边缘计算、云计算形成分布式网络。传统操作系统难以高效管理跨节点、跨架构的资源。加之人工智能训练等场景需要低延迟、高吞吐、安全可信,动态弹性的分布式系统支持,这就要求操作系统具备跨异构资源的统一抽象与调度能力。学术界和工业界对下一代计算机操作系统在分布式微内核架构,异构资源调度算法,跨层优化与编译器支持,安全可信技术,虚拟化和 Serverless,AI 驱动操作系统内核优化以及操作系统内置 AI 推理引擎等方面展开了积极的探索和研究。 课题挑战: 方向一:体系化结构方向 1)负载特征与架构优化:建立数据中心动态负载特征建模框架,深入研究面向数据中心Workload的体系结构设计与优化方法,使系统能够更好地适应多样化的负载需求; 2)CPU核心架构创新:研究高性能低功耗CPU核心架构,积极探索超标量流水线与数据流引擎的融合设计,提升CPU的性能和能效; 3)新型内存层次构建:构建支持存算一体化的新型内存层次结构,研究基于3D堆叠技术的近存计算架构,重点突破高带宽互连拓扑优化、混合内存控制器设计、内存访问模式预测算法,解决 “内存墙” 等问题; 4)安全可信架构构建:构建安全可信计算架构,包括侧信道攻击防御的微架构级实现、侧信道安全架构、自动侧 / 隐蔽通道泄漏检测,确保系统在复杂环境下的安全性和完整性; 5)数据中心架构创新:探索整机柜级系统总线扩展,构建内存语义互联的新型数据中心架构,研究基于新型总线协议 (CXL/UALink) 的全局内存共享机制,提升数据中心的整体性能和资源利用率; 6)可靠性增强技术研究:研究可靠性增强技术,包括开发基于机器学习的故障预测模型,设计自修复的微架构容错机制,研究硬件静默故障检测,以及系统及IP可靠性特性研究和数据分析,保障系统的稳定运行。 方向二:操作系统方向 1)操作系统关键技术突破:突破传统单机操作系统存在的硬件资源利用局限、功能扩展与升级运维复杂、数据管理与共享不足、安全性与可靠性欠佳等问题。在计算高度异构以及计算环境分布化的情况下,从硬件到软件建立完整的信任链,保证整个系统的安全性和完整性。同时,有效地管理和协调多个节点间的通信、数据同步及故障恢复,设计高效的调度算法来匹配任务需求与最适合的计算资源,以最大化性能和效率。操作系统需要能够理解不同类型的计算任务,并能根据实时的工作负载动态调整资源分配,实现跨异构资源的统一抽象与调度; 2)跨领域知识融合:本课题需要融合 OS、内核、算法、存储、虚拟化、网络、系统工程等多方面的跨领域知识和经验,以实现数据中心智能计算体系结构与操作系统的协同创新。