蔚来AI runtime工程师
任职要求
1,计算机、通信或者电子相关专业,本科及以上学历,有AI芯片系统软件开发或验证经验者优先; 2,熟悉NPU/GPGPU体系结构,深入理解ROCm/Cuda Runtime项目; 满足以下条件优先:…
工作职责
负责开发深度学习AI模型的runtime软件,完成计算资源调度、内存管理、host-device并行优化工作。 1,分析和解决KMD/UMD的功能、性能和稳定性问题,确保高质量交付AI系统的运行时软件; 2,与编译器、驱动工程师协同提供定制优化项和编程api; 3,参与故障检测和恢复机制设计,保证AI系统的可靠性; 4,参与Profiling工具设计,保证AI系统的性能可视化和瓶颈定位; 5,持续改进通信和调度机制, 与业务团队协作完成多模型部署,提高芯片的综合计算效率和系统吞吐量;
1、基于自研AI芯片开发Runtimee/UMD软件栈; 2、负责异构调度开发; 3、参与硬件整个设计流程,迭代驱动设计以满足model/emulation/hardware的需求; 4、分析和解决KMD/UMD的功能、性能和稳定性问题,确保高质量软件交付; 5、跟踪行业趋势和实践,持续改进driver的设计和实现;
1、参与算子编译器、图编译器和算子 Kernel 的设计、开发与优化; 2、负责 AI 推理引擎及 Runtime 的架构设计、性能调优和稳定性提升; 3、与智能辅助驾驶算法团队及硬件工程师紧密协作,将算法模型高效地落地到编译器和运行时环境; 4、 编写高质量、可维护的 C/C++代码,完成模块测试、文档编写及代码评审; 5、定期进行性能分析与瓶颈定位,推动系统整体吞吐与延迟指标的持续改进; 6、跟踪业界最新 AI 编译及推理技术,评估并引入前沿方案,推动技术演进。
我们正在寻找资深AI集群工程师,负责构建和优化大规模GPU计算基础设施。作为AI算力平台的核心建设者,您将参与从硬件选型到调度优化的全链路工作,支撑公司核心AI业务的万卡级算力需求。 Kubernetes调度与计算平台 资源调度与集群管理 - 设计和实现GPU算力调度系统,优化资源利用率和作业调度效率 - 负责Kubernetes节点组件(kubelet、container runtime)的稳定性、性能优化 - 深度排查Kubernetes集群复杂问题 计算平台与节点优化 - 参与服务器硬件选型、测试和验收,重点优化GPU服务器性能 - 推进国产AI芯片的生态适配 - 建立集群故障感知召回体系,提高AI计算资源利用率,维护线上集群稳定性 扩展方向:性能优化(附加项) - 参与AI集群网络优化(NCCL/RoCEv2),提升分布式训练通信效率 - 深入文件系统、缓存、镜像、cri细节,优化容器启动速度