logo of horizon

地平线AI芯片工具链架构师

社招全职5年以上软件序列地点:北京 | 上海状态:招聘

任职要求


1、计算机相关专业,硕士及以上学历,5年以上模型部署、模型压缩相关工作经验,或具备10年以上的AI算法开发与架构设计或技术管理经验,对最新的AI技术和趋势有深入了解,在华为/英伟达从事芯片工具链技术研发和架构设计相关工作经验优先
2、熟悉AI模型部署的端到端链路细节,包括但不限于模型量化、编译、端侧部署优化等,对模型压缩(尤其是模型后量化)、模型部署、等关键技术有深刻的理解并可以熟练进行中长期技术规划,对模型部署领域的发展有准确预判,至少对一种主流的部署优化工具,如tensorRT,有比较深入的理解和认识
3、理解智驾及人机交互开发算法应用过程的业务问题以及痛点以及开发模式,能够通过领域技术与模式(如:模型转换与优化技术、编译器技术)转换为工程架构。对自动驾驶及人机交互算法及应用的未来趋势的演变有深入了解,对算法及应用的开发模式有深入理解
4、能够评估多个备选方案、需要能够做出架构决定,确定优先级、引导项目和组织走在正确的方向。具有较强的抽象能力,能够化繁为简,把技术规划(高层架构)变成进行细化设计
5、编程能力强,熟练掌握复杂C++系统项目的开发、升级与维护工作,在系统架构层面有深入思考
6、具备较强的沟通协作能力、文档能力,和其他架构师、利益相关者协作,拉通对齐,把形成的架构设计和决定文档化和团队沟通统一认知,能够将自己的设计清晰的表达传递给团队,指导开发人员正确实施,有过复杂软件系统开发经验者优先
7、具有AI编译器,PTQ/QAT,GPT大模型自动驾驶及人机交互算法及AI架构开发经验优先
8、在核心会议期刊发表过模型压缩部署相关论文,或拥有业界主流AI芯片工具链开发经验者优先

工作职责


1、负责地平线AI工具链完整架构设计和规划,设计出符合需求的系统架构和系统总体方案,并跟踪支持产品研发过程对需求的实现。项目关键核心技术可行性评估,配合完善产品定义
2、关注AI工具链长期的技术竞争力,并且能够从模型部署、模型压缩等角度思考,为地平线下一代芯片的设计提供分析支持与指引
3、负责模型量化压缩工具的研发工作,对AI模型部署,模型压缩,模型量化等技术进行中长期规划,保障AI芯片工具链在模型量化、模型压缩领域的技术竞争力
4、承担模型量化工具的系统与架构设计工作,对自动驾驶模型部署过程中的系统问题进行分析与拆解
包括英文材料
学历+
算法+
系统设计+
TensorRT+
自动驾驶+
C+++
GPT+
大模型+
相关职位

logo of honor
社招研发类

1、负责开发面向自研芯片的AI模型编译工具链,支持CNN,Trasformer等主流网络高效部署; 2、设计并实现模型优化,图编译优化,算子融合,内存优化等关键技术,提升AI芯片的整体推理性能; 3、开发自动化工具链,简化模型从训练框架(pytorch,tensorflow)到自研芯片的部署流程; 4、与芯片紧密合作,完成对指令集、内存架构等进行深度优化; 5、负责工具开发流程建设,开发文档建设,指导团队端到端落地。

更新于 2025-06-05
logo of liauto
社招5年以上智能与信息技术

负责设计和构建自研NPU编译器及工具链的核心架构;特别是跨模块接口设计、硬件抽象定义、编程模型设计、关键性能考量等方面。 1、编译器架构设计:聚焦于编译器(包含运行时)各模块间的接口设计。 硬件抽象定义:定义合理的NPU硬件抽象,在跨平台和发掘硬件效率之间找到最佳平衡。 2、开发者界面定义:定义编程模型和工具链界面,提升自定义算子开发和模型适配效能。 3、前沿技术研究:跟踪编译器技术(如MLIR、LLVM)、AI芯片架构及深度学习框架的最新进展,探索创新性解决方案。

logo of dji
社招5年以上芯片

1. 负责自研NPU芯片的系统级、微架构级建模与仿真平台的设计与实现; 2. 主导NPU架构的性能、功耗、带宽等多维度建模分析,支持架构设计空间探索与优化; 3. 结合业务需求,建立高效、可扩展的建模工具链,推动软硬件协同设计; 4. 跟踪业界前沿建模技术,推动建模方法和工具的持续创新。

更新于 2025-06-16
logo of mi
校招

1、参与或主导Vector/Matrix单元微架构和算子设计,并进行性能、功耗论证; 2、参与或主导Vector/Matrix单元RTL实现与调优; 【课题名称】 通用处理器Vector及Matrix计算单元微架构及算法研究。 【课题内容】 背景:随着AI芯片在深度学习领域的爆发式应用,专用加速器在特定场景下展现出显著优势。然而通用处理器作为计算生态的核心底座,仍需在混合计算负载支持、能效比优化及异构协同能力等维度持续突破: 1. AI规模化部署需求:边缘计算、云边端协同等场景要求通用处理器高效处理AI预处理、逻辑控制与非结构化任务; 2. 摩尔定律放缓倒逼创新:在制程红利递减背景下,需通过微架构革新提升单位晶体管效能; 3. 异构计算融合趋势:通用处理器需与AI加速器深度协同,构建"CPU+XPU"的动态计算网络; 关键挑战: 1. 通用性与效率的平衡 如何在支持多样化指令集的同时,保持对AI算子(如矩阵乘、张量计算)的高效加速; 2. 动态资源调度复杂性 多任务场景下的缓存一致性、乱序执行、分支预测等机制需重构优化; 3. 异构计算通信瓶颈 跨架构内存共享、任务分配策略、低延迟互连协议设计; 4. 能效比突破困境 在先进制程逼近物理极限时,如何通过近似计算、存算一体等架构创新实现能效跃升;

更新于 2025-07-17