logo of bytedance

字节跳动AI芯片研发工程师-芯片研发-筋斗云人才计划

校招全职A21770地点:北京状态:招聘

任职要求


1、获得博士学位,计算机、电子、微电子、通信等相关专业优先;
2、熟悉计算体系结构,对典型的AI硬件加速器架构或者GPU/CPU架构有深入的了解; 
3、有AI模型优化相关经验,对典型的AI模型计算访存行为有较好的理解; 
4、熟悉大模型推理/分布式训练流程,熟悉反向传播和参数更新等过程; 
5、熟练掌握RTL/Python等相关编程语言;
6、对Megatron-LM、DeepSeed等大模型训练框架熟悉;对数据并行、模型并行、流水并行等常见的训练模式有深入理解。

加分项:
1、对计算机网络TCP/IP协议栈或者RDMA协议有了解; 
2、了解TensorFlowPyTorch深度学习框架;
3、经历过比较完整的ASIC芯片流程,有过实际电路优化实操经验;
4、深入理解芯片架构和微架构设计;有CPU/NoC/高性能计算设计经验;
5、了解AI大模型LLM等;
6、有主动学习、快速解决问题的能力和自我驱动力。

工作职责


团队介绍:字节芯片研发团队隶属于系统部,目前工作主要集中在芯片设计环节。该团队主要围绕字节自身业务展开芯片探索,为字节多项业务的专用场景定制硬件优化,设计多款基于先进半导体工艺的云端复杂芯片,以期提升性能、降低成本。早期若干芯片项目已经进入到量产部署阶段,有多次一版成功的投片经历,所用工艺包含多个主流的先进工艺节点。和系统部基础设施工作的整体协同,能更容易和更好地发挥芯片研发的价值。

课题介绍:探索电路、SoC和算法的协同架构;负责创新电路、架构和系统设计;与硬件设计团队合作,实现高协同的架构和系统设计。
研究方向:电路设计系统、芯片设计、半导体、机器学习、深度学习、计算机架构。

一、架构设计
1、负责AI芯片架构的探索与设计方案,包括计算/互联/存储等方向;
2、负责AI推理/训练系统的软硬件协同优化方案;
3、负责不同业务场景下AI模型结构和算子特性分析、硬件实现方案制定以及性能优化。
二、ASIC设计
1、负责数据中心内ASIC芯片的微架构探索、RTL设计和集成,包括计算/互联/访存几个方向;
2、支持AI加速芯片的Power/Performance/Area优化和设计流程优化;
3、跟踪调研业界最新AI芯片微架构,并进行量化分析和总结,梳理AI微架构benchmark。
三、AI工具链
1、负责硬件加速器训练框架研发;
2、参与软硬件协同设计,对关键硬件参数进行仿真;
3、负责实际业务模型训练任务调研;
4、负责训练中通信算子研发以及性能优化。
包括英文材料
学历+
大模型+
Python+
Megatron+
TCP/IP+
TensorFlow+
PyTorch+
深度学习+
系统设计+
相关职位

logo of bytedance
校招A133664B

团队介绍:字节芯片研发团队隶属于系统部,目前工作主要集中在芯片设计环节。该团队主要围绕字节自身业务展开芯片探索,为字节多项业务的专用场景定制硬件优化,设计多款基于先进半导体工艺的云端复杂芯片,以期提升性能、降低成本。早期若干芯片项目已经进入到量产部署阶段,有多次一版成功的投片经历,所用工艺包含多个主流的先进工艺节点。和系统部基础设施工作的整体协同,能更容易和更好地发挥芯片研发的价值。 课题介绍:探索电路、SoC和算法的协同架构;负责创新电路、架构和系统设计;与硬件设计团队合作,实现高协同的架构和系统设计。 研究方向:电路设计系统、芯片设计、半导体、机器学习、深度学习、计算机架构。 一、架构设计 1、负责AI芯片架构的探索与设计方案,包括计算/互联/存储等方向; 2、负责AI推理/训练系统的软硬件协同优化方案; 3、负责不同业务场景下AI模型结构和算子特性分析、硬件实现方案制定以及性能优化。 二、ASIC设计 1、负责数据中心内ASIC芯片的微架构探索、RTL设计和集成,包括计算/互联/访存几个方向; 2、支持AI加速芯片的Power/Performance/Area优化和设计流程优化; 3、跟踪调研业界最新AI芯片微架构,并进行量化分析和总结,梳理AI微架构benchmark。 三、AI工具链 1、负责硬件加速器训练框架研发; 2、参与软硬件协同设计,对关键硬件参数进行仿真; 3、负责实际业务模型训练任务调研; 4、负责训练中通信算子研发以及性能优化。

更新于 2025-05-26
logo of bytedance
社招A161520

团队介绍:专注于探索AI和智能硬件的结合,为用户提供更自然和便捷的交互体验的研发团队,隶属于产品研发与工程架构部。作为负责AI技术应用场景探索的部门,是字节在智能硬件领域提供综合方案研究的核心部门。我们欢迎期待心怀技术理想、不断挑战技术难题的“你”的加入,和顶尖团队一起参与技术攻坚,开启更多可能。 课题介绍: 背景:目前移动端处理器均是非对称异构多核处理器(big.LITTLE架构),之前的调度器(类)大多基于Linux原生的公平调度算法CFS/EEVDF。自EAS引入后,才使调度器第一次具备了能耗感知能力,通过EM(能耗模型)来量化调度行为导致的CPU能耗变化,从而做出能耗更优的大小核调度。但随着应用生态的日益多样和CPU算力的快速升级,EAS也暴露了自身的设计不足,如: 1、EM模型参数需要通过实验室数据模拟设定,设定后无法修改; 2、不能针对不同的场景做精细化的预估和调节; 3、功耗模型应用时未考虑任务自身的的指令执行效率和特征分类,从而做出一些不恰当的选择等; 4、为了充分发挥异构多核处理器的能效优势,精准计算和指导SoC的能效优化,迫切需要结合异构硬件特性实现对CPU指令吞吐性能感知和能效动态预估,打造一个面向AI新生态和能效智能校准能力的调度器; 5、进一步的,通过对异构计算能力的指令级能耗分解,并结合未来的芯片技术发展趋势,可以实现范围更广的多算力设备联合调度和能效建模,从软硬结合的角度构造核心竞争力,将SoC能效优化推到极致。 课题挑战: 1、开销:系统中需要实时监控和统计指令特征等信息,引入的开销需要控制在最小的范围内; 2、硬件制约:部分平台,对外提供的AMU/PMU事件较少,寄存器数量有限,可能要做分时复用设计;异构多核系统以及cache的多级设定,对指令的执行效率和产生的能效有较大扰动,需要结合架构做灰盒建模; 3、复合场景:多窗口,多应用,悬浮窗等不同场景下,能耗模型的普适性和准确性。 目标: 1、游戏、动效等场景,帧率不变,功耗优化10%。

更新于 2025-05-13
logo of bytedance
校招A02968

团队介绍:专注于探索AI和智能硬件的结合,为用户提供更自然和便捷的交互体验的研发团队,隶属于产品研发与工程架构部。作为负责AI技术应用场景探索的部门,是字节在智能硬件领域提供综合方案研究的核心部门。我们欢迎期待心怀技术理想、不断挑战技术难题的“你”的加入,和顶尖团队一起参与技术攻坚,开启更多可能。 课题介绍: 背景:目前移动端处理器均是非对称异构多核处理器(big.LITTLE架构),之前的调度器(类)大多基于Linux原生的公平调度算法CFS/EEVDF。自EAS引入后,才使调度器第一次具备了能耗感知能力,通过EM(能耗模型)来量化调度行为导致的CPU能耗变化,从而做出能耗更优的大小核调度。但随着应用生态的日益多样和CPU算力的快速升级,EAS也暴露了自身的设计不足,如: 1、EM模型参数需要通过实验室数据模拟设定,设定后无法修改; 2、不能针对不同的场景做精细化的预估和调节; 3、功耗模型应用时未考虑任务自身的的指令执行效率和特征分类,从而做出一些不恰当的选择等; 4、为了充分发挥异构多核处理器的能效优势,精准计算和指导SoC的能效优化,迫切需要结合异构硬件特性实现对CPU指令吞吐性能感知和能效动态预估,打造一个面向AI新生态和能效智能校准能力的调度器; 5、进一步的,通过对异构计算能力的指令级能耗分解,并结合未来的芯片技术发展趋势,可以实现范围更广的多算力设备联合调度和能效建模,从软硬结合的角度构造核心竞争力,将SoC能效优化推到极致。 课题挑战: 1、开销:系统中需要实时监控和统计指令特征等信息,引入的开销需要控制在最小的范围内; 2、硬件制约:部分平台,对外提供的AMU/PMU事件较少,寄存器数量有限,可能要做分时复用设计;异构多核系统以及cache的多级设定,对指令的执行效率和产生的能效有较大扰动,需要结合架构做灰盒建模; 3、复合场景:多窗口,多应用,悬浮窗等不同场景下,能耗模型的普适性和准确性。 目标: 1、游戏、动效等场景,帧率不变,功耗优化10%。

更新于 2025-05-13
logo of liauto
校招芯片架构

“理想+”是理想汽车面向全球招募优秀AI技术人才的校园招聘计划,涵盖大模型、AIGC、算法部署、推理加速、AI芯片研发等领域方向。理想汽车2023年实现千亿营收、百亿盈利。经过9年的发展,截至2024年6月理想汽车累计交付已突破80万辆。海量的用户规模和持续的盈利能力将支持理想汽车不断扩大在AI前沿技术领域的研发投入,保持从电动化到智能化的持续领先,把握时代机遇,成为全球领先的人工智能企业。 我们期待你的加入,与理想汽车一起成长、分享收获。通过人工智能技术去改变物理世界的效率和体验,造福我们服务的每一个家庭,以及家庭里的每一位成员。 本岗位的主要工作内容为负责AI芯片和系统领域的技术创新研究,包括: 1. 下一代AI芯片架构,如计算和通信; 2. AI芯片计算效率相关加速技术,如AI编译器和高性能算子自动代码生成; 3. 分布式训练,如支持大模型训练的相关技术; 4. 支撑自动驾驶的系统技术,如确定性延时、可靠性、异构资源的调度等。