平头哥平头哥-边缘AI芯片软件工程师-模型部署优化-上海
社招全职5年以上技术-芯片地点:上海状态:招聘
任职要求
1. 电子工程,计算机等相关专业硕士及以上学历 2. 具备3年以上AI推理优化相关工作经验,深刻理解并行计算和CUDA编程,熟悉TensorRT和TensorRT-LLM的模型部署和优化。 3. 熟悉边缘AI芯片上模型部署使用者优先,如自动…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 与算法同事协作,负责端侧AI模型以及大模型(LLM, VLM, VLA) 的部署和推理优化,结合AI软硬件特性实现高性能计算和推理效率优化,包括但不限于多模型部署,多任务调度,多线程/多进程加速,多IP之间的高效数据交换和同步。 2. 负责系统调优和统筹AI算力资源使用,在保障任务实时性/稳定性的前提下,实现算力资源(CPU/GPU/NPU)和内存资源的高效利用。 3. 深入挖掘AI芯片软件栈和系统性能瓶颈,提出软硬件的加速解决方案和需求
包括英文材料
学历+
CUDA+
https://developer.nvidia.com/blog/even-easier-introduction-cuda/
This post is a super simple introduction to CUDA, the popular parallel computing platform and programming model from NVIDIA.
https://www.youtube.com/watch?v=86FAWCzIe_4
Lean how to program with Nvidia CUDA and leverage GPUs for high-performance computing and deep learning.
TensorRT+
https://docs.nvidia.com/deeplearning/tensorrt/latest/getting-started/quick-start-guide.html
This TensorRT Quick Start Guide is a starting point for developers who want to try out the TensorRT SDK; specifically, it demonstrates how to quickly construct an application to run inference on a TensorRT engine.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
还有更多 •••
相关职位

社招1年以上系统开发
1. 构建辅助驾驶/机器人场景的大模型端&云侧协同计算平台,支撑云&边&端平台的深度学习计算部署落地,打造计算机视觉在边缘计算行业的核心竞争力和解决方案; 2. 深度学习算法、LLM、语音应用成果转化,负责LLM、检测、分类、分割、3D等方向算法的工程化、服务化和产品化; 3. 异构计算芯片性能优化,在市场主流移动端SOC芯片——Qualcomm、MTK、Nvidia霸等,进行异构计算极致性能优化; 4. 算法SDK通用框架构建与优化,保证深度学习算法部署落地的高效稳定,可移植可扩展。
更新于 2025-06-12北京|合肥|上海
社招5年以上
1、跟踪行业最新技术动态,为公司的AI芯片技术发展提供前瞻性的建议和技术储备; 2、跟踪GPGPU/NPU行业最新动态、产品与技术架构,分析公司内外部业务系统需求,结合自研芯片架构,输出系统软硬件协同设计方案; 3、负责组织硬件平台、软件平台、生态平台等AI组件的SE专家,一起协同工作交付有竞争力的AI整体系统方案,并指导开发团队完成方案的开发交付落地; 4、推理基础设施方案设计,针对产品业务场景,优化模型在边缘设备(自研芯片平台、Jetson、机器人嵌入式系统)的部署性能,实现模型量化、动态计算图裁剪、异构硬件(GPU/NPU/FPGA)适配等关键技术;
更新于 2024-03-06上海

社招算法工程
1. 负责端侧AI 模型的优化、部署与性能调优,包括但不限于计算机视觉模型与大模型(LLM、VLM等)。 2. 基于不同端侧芯片(NPU、GPU、DSP、FPGA 等)进行模型适配和部署,实现高性能、低功耗推理。 3. 研究与实现模型压缩、量化、剪枝、蒸馏等技术,提高模型在端侧的运行效率与内存利用率。 4. 跟踪前沿算法与端侧硬件技术发展,探索新型架构与优化方法。 5. 与算法、芯片、软件团队紧密协作,完成从模型训练到端侧落地的全链路优化。
更新于 2025-09-24北京|上海|深圳