logo of nio

蔚来AI runtime工程师

社招全职3-5年算法地点:上海状态:招聘

任职要求


1,计算机、通信或者电子相关专业,本科及以上学历,有AI芯片系统软件开发或验证经验者优先;
2,熟悉NPU/GPGPU体系结构,深入理解ROCm/Cuda Runtime项目;
满足以下条件优先:
1,熟悉AI系统的运行时开发;
2,熟悉集群通信的原理和实现,包括MPI,NCCL等通信库。
熟悉AI推理引擎运行机制,理解Pytorch Aten,Executorch,TVM Runtime

工作职责


负责开发深度学习AI模型的runtime软件,完成计算资源调度、内存管理、host-device并行优化工作。
1,分析和解决KMD/UMD的功能、性能和稳定性问题,确保高质量交付AI系统的运行时软件;
2,与编译器、驱动工程师协同提供定制优化项和编程api;
3,参与故障检测和恢复机制设计,保证AI系统的可靠性;
4,参与Profiling工具设计,保证AI系统的性能可视化和瓶颈定位;
5,持续改进通信和调度机制, 与业务团队协作完成多模型部署,提高芯片的综合计算效率和系统吞吐量;
包括英文材料
学历+
CUDA+
推理引擎+
PyTorch+
相关职位

logo of antgroup
社招5年以上技术-基础平台

1、基于自研AI芯片开发Runtimee/UMD软件栈; 2、负责异构调度开发; 3、参与硬件整个设计流程,迭代驱动设计以满足model/emulation/hardware的需求; 4、分析和解决KMD/UMD的功能、性能和稳定性问题,确保高质量软件交付; 5、跟踪行业趋势和实践,持续改进driver的设计和实现;

更新于 2025-06-03
logo of nio
社招3-5年算法

1、参与算子编译器、图编译器和算子 Kernel 的设计、开发与优化; 2、负责 AI 推理引擎及 Runtime 的架构设计、性能调优和稳定性提升; 3、与智能辅助驾驶算法团队及硬件工程师紧密协作,将算法模型高效地落地到编译器和运行时环境; 4、 编写高质量、可维护的 C/C++代码,完成模块测试、文档编写及代码评审; 5、定期进行性能分析与瓶颈定位,推动系统整体吞吐与延迟指标的持续改进; 6、跟踪业界最新 AI 编译及推理技术,评估并引入前沿方案,推动技术演进。

更新于 2025-06-13
logo of thead
社招5年以上技术-芯片

具体职责包括但不限于: 1.嵌入式/边缘AI推理计算的软件生态方案选择,SDK和软件框架方案设计和开发 2.异构核并行计算中间件软件的设计,开发,和性能优化,包括Runtime,调度等 3.AI和感知算法在异构核上的部署和优化(包括算力分配,算子融合,各种流水线并行,核间通信等),效果测试 4.应用解决方案的软件设计和开发,包括结合云的端云协同仿真器,模拟器、调试器、IDE开发和性能优化

更新于 2025-09-01
logo of bytedance
社招2年以上A13229

1、参与AI芯片多卡互联方案的设计与开发,根据公司产品需求,制定高效、稳定的多卡互联架构; 2、参与开发和优化多卡互联的软件驱动程序,实现多卡之间的协同工作,提高系统的整体性能和稳定性; 3、参与多卡互联系统的验证与调试,及时发现并解决在测试过程中出现的各种问题; 4、参与AI芯片Profiling方案设计,负责Profiling模块的验证以及相关驱动和工具的开发; 5、参与AI芯片任务调度器驱动方案设计和开发,负责任务调度Firmware的开发; 6、跟踪行业最新技术动态,为公司的AI芯片多卡互联技术发展提供前瞻性的建议和技术储备。

更新于 2025-01-21