小鹏汽车大模型推理加速高级/资深工程师
任职要求
岗位要求: 1、熟悉C/C++或Python编程语言。 2、熟悉并掌握主流模型压缩技术,如量化(GPTQ/AWQ/SmoothQuant)、剪枝(Sheared-LLaMa)、蒸馏及NAS。 3、熟悉LLM推理框架(如vLLM、TensorRT-LLM)及优化加速技术(如Flashattention、Speculative-Decoding)。 4、具备LLM推理优化和加速技术的实践经验。 5、拥有深入研究精神、创新能力及持续学习意愿。 加分项: 1、熟悉GPU/NPU硬件架构,能使用CUDA、CUTLASS进行编程优化。 2、有异构计算加速或芯片级性能调优经验。
工作职责
1、负责小鹏座舱推理引擎的加速优化,包括模型结构优化(MoE、Mamba)及底层计算加速(INT4、FP8)。 2、负责小鹏多模态大模型压缩技术探索,涵盖量化(QAT/PTQ)、剪枝、蒸馏、稀疏化、NAS等。 3、调研前沿模型压缩算法,推动技术开发与落地应用。 4、参与生成式大模型的结构探索、开发及实际场景部署。
1. 参与语音交互算法工程化工作(包括但不限于asr,nlp,tts,多模大模型)关联模块及端到端的架构设计和功能开发; 2. 多平台(如GPU,高通8155/8295芯片平台)的模型推理优化及加速;
上海方向: 1.开发和优化大模型推理系统。研究面向大语言模型、多模态模型、视觉生成模型的推理加速技术,不限于并行解码、稀疏注意力、采样优化等技术方向。 2.跟踪学术界和工业界的最新推理加速技术,进行分析和优化,推进落地。 3.进行大模型推理加速技术创新,发表高水平论文。 【岗位资源】 1.真实大模型推理加速场景需求、AI大模型推理系统、计算资源 2.与知名高校资深老师团队科研合作,提供例行科研沟通合作机会。 3.业界资深研究员带队技术探索、落地、论文写作发表。 深圳方向: 1. 参与或主导端云协同机器学习算法预研工作,跟进机器学习前沿发展; 2. 参与深度学习模型优化、压缩,设备端算法落地; 3. 指导和参与新技术与理论在实际业务中的落地应用; 4. 参与端云协同系统的研究落地转化,包括系统主要模块算法的设计、验证、实现和上线闭环,并在过程中沉淀对应学术成果。
【岗位职责】 1、开发和优化大模型推理系统。研究面向大语言模型、多模态模型、视觉生成模型的推理加速技术,不限于并行解码、稀疏注意力、采样优化等技术方向。 2、跟踪学术界和工业界的最新推理加速技术,进行分析和优化,推进落地。 3、进行大模型推理加速技术创新,发表高水平论文。
1.负责主流大模型(DeepSeek、通义、LLaMA等)的全栈性能优化,涵盖模型架构优化、训练/推理框架调优及底层算子优化,提升模型在单机/集群场景下不同GPU/NPU硬件平台的运行效率 2.开发创新推理加速方案,通过投机采样算法改进、MTP机制优化等框架级特性,提升MOE架构模型推理效率;并通过优化集群并行推理场景的专家负载均衡、计算/通信 Overlap 等特性,提升集群级别的推理效率 3.完成 W8A8 等量化算法研发,并在框架层面支持量化模式下的 TP、EP 等并行模式的性能优化 4.针对多种计算架构(NVIDIA/AMD GPU、国产化 NPU 等)进行深度硬件适配,开发高性能算子库与内存管理组件,实现跨平台性能优化与资源利用率的提升