
地平线NPU架构与算子优化实习生
任职要求
教育背景:计算机架构、人工智能、微电子或数学等相关专业在读博士生(高年级优先)。 技术能力: 精通 PyTorch/TensorFlow 底层原理,具备算子级调优或高性能计算 (HPC) 经验。 深入理解处理器体系结构,对 GPU 或 DSA (NPU/TPU) 有研究背景。 熟练掌握 C++/Python 编程,有 TVM、MLIR 或编译器开发经验者优先。 学术成果:在 ISCA, MICRO, HPCA, ASPLOS 或 NeurIPS, ICML 等顶级会议发表过相关论文者优先。 综合素质:具备优秀的科研直觉与自驱力,能够从全局视角思考AI计算系统的优化问题。 实习课题描述 课题名称:基于 AI 增强的软硬协同 NPU 架构与算子自动化优化 课题…
工作职责
前沿算法研究:跟踪具身智能与大模型领域的算子演进,分析其在 NPU 架构上的计算特征与访存瓶颈。 高性能算子研发:利用 AI 自动调优工具或数学建模手段,优化核心算子库,并在 NPU 模拟器上实现预期的能效比目标。 系统级建模优化:参与AI计算系统的建模工作,探索利用 AI 手段优化多核间的调度策略与数据互联架构。 软硬协同预研:作为技术纽带,将算法特征转化为具体的硬件设计建议,输出高质量的技术研究报告。
ByteIntern:面向2027届毕业生(2026年9月-2027年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。 1、深度参与业界先进开源LLM/VLM模型的推理优化部署,构建业界领先的模型推理优化能力; 2、负责完善不同芯片的推理适配和优化技术体系,提升大模型x芯片类型矩阵的适配与优化效率; 3、负责新型异构芯片在多种大模型上的分析评估工作; 4、负责前沿技术的调研评估和引进落地,例如前沿论文中的推理加速技术、软硬协同优化、新异构硬件特性等。
我们致力于解决大模型(LLM)推理领域的根本性挑战,现诚邀拥有深厚研究背景的博士或硕士研究生加入我们的团队。您将: 1. 探索大模型推理的核心瓶颈: 深入研究大模型推理中计算密集与内存受限等核心挑战的本质。提出并验证创新的并行策略、调度算法与系统优化方案,以突破跨设备集群(多机)和异构硬件环境下的推理效率极限,为下一代高效推理引擎奠定理论基础并实现突破性贡献。 2. 定义硬件感知的高性能编译与协同优化: 研究并设计面向多样化硬件体系结构(如GPU, NPU, ASIC等)的高性能算子编译优化框架。开创性地探索计算与通讯的深度融合与协同优化方法,构建理论模型并实现系统级性能的显著提升。 3. 创新下一代高效模型架构与推理范式: 前瞻性地结合未来硬件发展趋势,深入解构现有模型架构的计算特性。致力于研究并发明计算效率显著提升的新型模型结构(如稀疏激活、条件计算等)和颠覆性的推理范式(如动态计算路径、混合精度推理策略),引领高效模型设计的前沿方向。 4. 引领前沿模型压缩与加速算法的研究与实践: 系统性地研究模型压缩与加速领域的最新技术(如量化、结构化/非结构化剪枝、投机采样、稀疏化、知识蒸馏等)的内在机理与极限。勇于探索并实践具有理论保障和实用价值的创新算法,为模型的高效部署开辟新路径,并推动该领域的技术边界。
1、参与面向大模型与物理AI场景的AI编译器研发,优化计算图表示、算子融合与内存调度策略; 2、针对自研AI芯片进行算子定制与性能调优,实现端到端推理与训练加速; 3、设计并实现自动代码生成工具链,支持多后端(GPU/NPU/CPU)的高效算子发射; 4、调研SOTA大语言模型的压缩和加速算法,并针对小鹏的模型结构做优化和实现; 5、与算法、芯片团队深度协作,推动编译优化在百万级量产环境中的稳定落地。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节芯片研发团队隶属于系统部,目前工作主要集中在芯片设计环节。该团队主要围绕字节自身业务展开芯片探索,为字节多项业务的专用场景定制硬件优化,设计多款基于先进半导体工艺的云端复杂芯片,以期提升性能、降低成本。早期若干芯片项目已经进入到量产部署阶段,有多次一版成功的投片经历,所用工艺包含多个主流的先进工艺节点。和系统部基础设施工作的整体协同,能更容易和更好地发挥芯片研发的价值。 1、参与AI加速芯片软件栈研发,包括芯片Firmware/驱动/工具的开发与测试; 2、参与AI加速芯片的架构与性能分析,软硬协同设计和验证,基于可编程接口进行算子用例开发; 3、参与GPGPU/NPU/CIM新技术架构和新产品的调研分析; 4、参与C2C/D2D等高速接口的调试/测试,包括SDK和相关工具开发和调试。