小鹏汽车大模型部署工程师
实习兼职地点:深圳 | 北京 | 上海状态:招聘
任职要求
1、本科及以上学历,计算机、电子工程等相关专业; 2、熟悉 C++/Python,具备模型部署或推理优化经验; 3、熟悉至少一种推理框架:TensorRT / ONNX Runtime / MNN / TVM / vLLM; 4、有以下至少一项经验: - 模型量化(PTQ/QAT/混合精度)与精度-速度 trade-off 调优; - CUDA 编程与 GPU kernel 优化; - 嵌入式 NPU 部署(高通/联发科/NVI…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
负责将大语言模型、多模态模型和具身智能模型高效部署到机器人端侧芯片和云端,实现低延迟实时推理。 1、负责 VLT(任务规划模型)、Omni(多模态交互模型)、VLA(操作模型)等大模型在 XP5 芯片上的端侧部署,完成模型量化(INT8/INT4/FP8)、图优化和推理加速; 2、设计和优化云端模型推理服务(基于 vLLM/TensorRT-LLM),支撑 VLT 云端推理的高并发低延迟需求; 3、开发运动控制模型(ONNX)在实时系统中的高性能推理管道,满足 500Hz 控制频率要求; 4、建立模型部署的标准化流程:模型转换→量化→性能基准测试→端侧验证→上线发布; 5、与算法团队协作,从模型设计阶段介入,提供部署可行性评估和性能预估。
包括英文材料
学历+
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
TensorRT+
https://docs.nvidia.com/deeplearning/tensorrt/latest/getting-started/quick-start-guide.html
This TensorRT Quick Start Guide is a starting point for developers who want to try out the TensorRT SDK; specifically, it demonstrates how to quickly construct an application to run inference on a TensorRT engine.
ONNX+
https://github.com/onnx/tutorials
Open Neural Network Exchange (ONNX) is an open standard format for representing machine learning models.
[英文] Introduction to ONNX
https://onnx.ai/onnx/intro/
This documentation describes the ONNX concepts (Open Neural Network Exchange).
MNN+
https://github.com/alibaba/MNN?tab=readme-ov-file#intro
MNN is a highly efficient and lightweight deep learning framework.
vLLM+
https://www.newline.co/@zaoyang/ultimate-guide-to-vllm--aad8b65d
vLLM is a framework designed to make large language models faster, more efficient, and better suited for production environments.
https://www.youtube.com/watch?v=Ju2FrqIrdx0
vLLM is a cutting-edge serving engine designed for large language models (LLMs), offering unparalleled performance and efficiency for AI-driven applications.
还有更多 •••
相关职位

社招算法序列
工作职责 1. 负责端到端自动驾驶模型在不同硬件平台上的部署与优化,参与模型评测; 2. 设计实现模型一致性评测工具链,确保跨平台一致性,识别并解决差异问题; 3. 参与软硬件协同优化设计。与硬件工程师协作,参与硬件设计和优化,提供模型在私有硬件平台的执行效率。
更新于 2025-09-09北京|上海
社招
负责自动驾驶端侧大模型的部署与优化工作; 研究并落地大模型优化相关技术,包括模型量化、算子优化等,推动在自动驾驶业务中的应用; 参与模型部署与优化工具链的研发工作; 与算法团队协同配合,完成从模型训练到部署的全链路优化,确保软硬件之间的高效协同。
更新于 2025-07-08北京
社招
1,开发并维护自动驾驶端到端大模型的软件框架,与算法工程师协作,完成模型的转换和部署,以及模型的输出解码; 2,负责功能开发与联调测试,迭代优化; 3,负责板上资源的调度评测与优化。
更新于 2025-07-21北京|上海|广州