logo of horizon

地平线NPU架构与算子优化实习生

实习兼职芯片序列地点:北京状态:招聘

任职要求


教育背景:计算机架构、人工智能、微电子或数学等相关专业在读博士生(高年级优先)。
技术能力:
精通 PyTorch/TensorFlow 底层原理,具备算子级调优或高性能计算 (HPC) 经验。
深入理解处理器体系结构,对 GPU 或 DSA (NPU/TPU) 有研究背景。
熟练掌握 C++/Python 编程,有 TVM、MLIR 或编译器开发经验者优先。
学术成果:在 ISCA, MICRO, HPCA, ASPLOS 或 NeurIPS, ICML 等顶级会议发表过相关论文者优先。
综合素质:具备优秀的科研直觉与自驱力,能够从全局视角思考AI计算系统的优化问题。

实习课题描述
课题名称:基于 AI 增强的软硬协同 NPU 架构与算子自动化优化
课题…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


前沿算法研究:跟踪具身智能与大模型领域的算子演进,分析其在 NPU 架构上的计算特征与访存瓶颈。
高性能算子研发:利用 AI 自动调优工具或数学建模手段,优化核心算子库,并在 NPU 模拟器上实现预期的能效比目标。
系统级建模优化:参与AI计算系统的建模工作,探索利用 AI 手段优化多核间的调度策略与数据互联架构。
软硬协同预研:作为技术纽带,将算法特征转化为具体的硬件设计建议,输出高质量的技术研究报告。
包括英文材料
PyTorch+
TensorFlow+
HPC+
C+++
Python+
还有更多 •••
相关职位

logo of quark
实习日常实习生

我们致力于解决大模型(LLM)推理领域的根本性挑战,现诚邀拥有深厚研究背景的博士或硕士研究生加入我们的团队。您将: 1. 探索大模型推理的核心瓶颈: 深入研究大模型推理中计算密集与内存受限等核心挑战的本质。提出并验证创新的并行策略、调度算法与系统优化方案,以突破跨设备集群(多机)和异构硬件环境下的推理效率极限,为下一代高效推理引擎奠定理论基础并实现突破性贡献。 2. 定义硬件感知的高性能编译与协同优化: 研究并设计面向多样化硬件体系结构(如GPU, NPU, ASIC等)的高性能算子编译优化框架。开创性地探索计算与通讯的深度融合与协同优化方法,构建理论模型并实现系统级性能的显著提升。 3. 创新下一代高效模型架构与推理范式: 前瞻性地结合未来硬件发展趋势,深入解构现有模型架构的计算特性。致力于研究并发明计算效率显著提升的新型模型结构(如稀疏激活、条件计算等)和颠覆性的推理范式(如动态计算路径、混合精度推理策略),引领高效模型设计的前沿方向。 4. 引领前沿模型压缩与加速算法的研究与实践: 系统性地研究模型压缩与加速领域的最新技术(如量化、结构化/非结构化剪枝、投机采样、稀疏化、知识蒸馏等)的内在机理与极限。勇于探索并实践具有理论保障和实用价值的创新算法,为模型的高效部署开辟新路径,并推动该领域的技术边界。

更新于 2025-12-29北京|广州|杭州
logo of xpeng
实习

1、参与面向大模型与物理AI场景的AI编译器研发,优化计算图表示、算子融合与内存调度策略; 2、针对自研AI芯片进行算子定制与性能调优,实现端到端推理与训练加速; 3、设计并实现自动代码生成工具链,支持多后端(GPU/NPU/CPU)的高效算子发射; 4、调研SOTA大语言模型的压缩和加速算法,并针对小鹏的模型结构做优化和实现; 5、与算法、芯片团队深度协作,推动编译优化在百万级量产环境中的稳定落地。

更新于 2026-03-20北京|上海
logo of bytedance
实习A91542A

日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、为芯片存算功能开发底层软件并进行验证和持续优化; 2、针对芯片的计算特点,进行算法-芯片协同设计优化,实现优于GPU的性价比; 3、针对存算芯片,AI 芯片等专用芯片进行大模型的分离部署的方案分析,提出业界领先方案。

更新于 2024-09-05北京