蔚来AI runtime工程师
社招全职3-5年算法地点:上海状态:招聘
任职要求
1,计算机、通信或者电子相关专业,本科及以上学历,有AI芯片系统软件开发或验证经验者优先; 2,熟悉NPU/GPGPU体系结构,深入理解ROCm/Cuda Runtime项目; 满足以下条件优先: 1,熟悉AI系统的运行时开发; 2,熟悉集群通信的原理和实现,包括MPI,NCCL等通信库。 熟悉AI推理引擎运行机制,理解Pytorch Aten,Executorch,TVM Runtime
工作职责
负责开发深度学习AI模型的runtime软件,完成计算资源调度、内存管理、host-device并行优化工作。 1,分析和解决KMD/UMD的功能、性能和稳定性问题,确保高质量交付AI系统的运行时软件; 2,与编译器、驱动工程师协同提供定制优化项和编程api; 3,参与故障检测和恢复机制设计,保证AI系统的可靠性; 4,参与Profiling工具设计,保证AI系统的性能可视化和瓶颈定位; 5,持续改进通信和调度机制, 与业务团队协作完成多模型部署,提高芯片的综合计算效率和系统吞吐量;
包括英文材料
学历+
CUDA+
https://developer.nvidia.com/blog/even-easier-introduction-cuda/
This post is a super simple introduction to CUDA, the popular parallel computing platform and programming model from NVIDIA.
https://www.youtube.com/watch?v=86FAWCzIe_4
Lean how to program with Nvidia CUDA and leverage GPUs for high-performance computing and deep learning.
推理引擎+
https://www.youtube.com/watch?v=_dvk75LEJ34
https://www.youtube.com/watch?v=XtT5i0ZeHHE
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
相关职位
社招5年以上技术-基础平台
1、基于自研AI芯片开发Runtimee/UMD软件栈; 2、负责异构调度开发; 3、参与硬件整个设计流程,迭代驱动设计以满足model/emulation/hardware的需求; 4、分析和解决KMD/UMD的功能、性能和稳定性问题,确保高质量软件交付; 5、跟踪行业趋势和实践,持续改进driver的设计和实现;
更新于 2025-06-03
社招3-5年算法
1、参与算子编译器、图编译器和算子 Kernel 的设计、开发与优化; 2、负责 AI 推理引擎及 Runtime 的架构设计、性能调优和稳定性提升; 3、与智能辅助驾驶算法团队及硬件工程师紧密协作,将算法模型高效地落地到编译器和运行时环境; 4、 编写高质量、可维护的 C/C++代码,完成模块测试、文档编写及代码评审; 5、定期进行性能分析与瓶颈定位,推动系统整体吞吐与延迟指标的持续改进; 6、跟踪业界最新 AI 编译及推理技术,评估并引入前沿方案,推动技术演进。
更新于 2025-06-13
社招5年以上技术-芯片
具体职责包括但不限于: 1.嵌入式/边缘AI推理计算的软件生态方案选择,SDK和软件框架方案设计和开发 2.异构核并行计算中间件软件的设计,开发,和性能优化,包括Runtime,调度等 3.AI和感知算法在异构核上的部署和优化(包括算力分配,算子融合,各种流水线并行,核间通信等),效果测试 4.应用解决方案的软件设计和开发,包括结合云的端云协同仿真器,模拟器、调试器、IDE开发和性能优化
更新于 2025-09-01