小鹏汽车【26届校招】算子库开发工程师-上海
任职要求
1、熟悉C++; 2、熟悉CUDA编程模型或其它并行编程模型; 3、熟悉计算机…
工作职责
1、基于芯片的架构用CUDA编程模型构建专家算子库; 2、为专家算子库进行性能分析、验证、优化等工作。
1、负责自动驾驶端到端模型的优化和高效部署; 2、负责自动驾驶相关算法在各种芯片平台上的算子开发、性能优化; 3、负责设计、开发新一代高性能的自动驾驶软件功能模块,能够对实车硬件状态和软件表现进行深度分析和调优; 4、探索下一代嵌入式芯片上,高性能计算、模型量产和优化的无限可能。
主要负责模型量化和编译器工具的开发,工作内容包括: 1. 量化工具的开发,包括模型平滑,伪量化,定点化等 2. 算子计算优化,以及算子融合和图优化等 3. 并行以及切分策略等 4. 算子代码生成codegen 5. 编译器后端,包括控制流优化,指令调度,寄存器和内存管理,物理代码生成等
【关于机器人中心】小鹏机器人中心专注于构建面向未来的人形机器人系统,融合先进的人工智能(AI)、控制、机械与系统工程,打造能感知、理解、操作并能和现实世界进行交互的下一代机器人。 【关于团队】该部门承担前沿智能方法的预研工作,专注于实现机器人三大核心智能能力:自主移动(导航)、灵巧操作和人机交互。我们深入布局大语言模型(LLM)、多模态视觉语言模型(VLM)和视觉语言行动模型(VLA),实现全流程自研,推动机器人从感知到决策的全面智能化落地。团队成员遍布深圳、上海和美国硅谷,聚集了世界一流的科研与工程人才,致力于将大模型技术真正落地到复杂、动态的物理环境中。在这里,你将:与来自 AI、机器人硬件、控制等领域的优秀工程师合作;参与推动 LLM/VLM/VLA 与机器人智能体的融合;构建能够自主学习与进化的“具身智能体”。 - 负责将大规模VLM/VLA模型高效部署于定制化芯片(NPU、TPU、ASIC、FPGA、GPU集群等); - 通过高效模型架构、推理图编译、算子融合与低延迟优化等方式,提升模型在各类硬件平台下的吞吐与功耗表现; - 设计并实现高性能推理框架,支持如长上下文、视频时空建模、工具调用等复杂功能; - 负责模型压缩与加速(量化INT8/FP8、蒸馏、剪枝、缓存、流式推理等)相关技术方案落地; - 联合芯片及系统团队,优化内存访问、调度策略、通信结构,达成端到端推理性能突破。