logo of aligenie

智能互联平头哥-边缘AI芯片软件工程师-模型部署优化-上海

社招全职5年以上技术-芯片地点:上海状态:招聘

任职要求


1. 电子工程,计算机等相关专业硕士及以上学历
2. 具备3年以上AI推理优化相关工作经验,深刻理解并行计算和CUDA编程,熟悉TensorRTTensorRT-LLM的模型部署和优化。
3. 熟悉边缘AI芯片上模型部署使用者优先,如自动…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 与算法同事协作,负责端侧AI模型以及大模型(LLM, VLM, VLA) 的部署和推理优化,结合AI软硬件特性实现高性能计算和推理效率优化,包括但不限于多模型部署,多任务调度,多线程/多进程加速,多IP之间的高效数据交换和同步。
2. 负责系统调优和统筹AI算力资源使用,在保障任务实时性/稳定性的前提下,实现算力资源(CPU/GPU/NPU)和内存资源的高效利用。
3. 深入挖掘AI芯片软件栈和系统性能瓶颈,提出软硬件的加速解决方案和需求
包括英文材料
学历+
CUDA+
TensorRT+
大模型+
还有更多 •••
相关职位

logo of thead
社招5年以上技术-芯片

1. 与算法同事协作,负责端侧AI模型以及大模型(LLM, VLM, VLA) 的部署和推理优化,结合AI软硬件特性实现高性能计算和推理效率优化,包括但不限于多模型部署,多任务调度,多线程/多进程加速,多IP之间的高效数据交换和同步。 2. 负责系统调优和统筹AI算力资源使用,在保障任务实时性/稳定性的前提下,实现算力资源(CPU/GPU/NPU)和内存资源的高效利用。 3. 深入挖掘AI芯片软件栈和系统性能瓶颈,提出软硬件的加速解决方案和需求

更新于 2026-02-04上海
logo of thead
社招5年以上技术-芯片

1. 与算法同事协作,负责端侧AI模型以及大模型(LLM, VLM, VLA) 的部署和推理优化,结合AI软硬件特性实现高性能计算和推理效率优化,包括但不限于多模型部署,多任务调度,多线程/多进程加速,多IP之间的高效数据交换和同步。 2. 负责系统调优和统筹AI算力资源使用,在保障任务实时性/稳定性的前提下,实现算力资源(CPU/GPU/NPU)和内存资源的高效利用。 3. 深入挖掘AI芯片软件栈和系统性能瓶颈,提出软硬件的加速解决方案和需求

更新于 2026-03-30上海
logo of thead
社招7年以上技术-芯片

架构设计人员,你将从事大型通用CPU芯片SoC系统架构工作,主要包括: 1.定义整芯片SoC的关键技术:芯片安全、RAS,芯片启动等系统架构方案。 2.从整芯片的成本、制造、功耗、物理电气等条件出发,trade-off芯片的整体布局、大小规格,和功耗SE、Top设计团队、集成实现、后端团队一起最终确定整芯片的floorplane。 3.熟悉跨片、跨Die的物理工程问题,了解业界最新相关技术,和相关团队一起合作,排除芯片面临的工程问题的风险挑战。

更新于 2025-08-13深圳|上海
logo of thead
社招5年以上技术-芯片

团队介绍 我们是平头哥AI 芯片软件互联团队,主要职责是积极拥抱社区生态、并基于平头哥AI 芯片产品来打造我们自己的互联通信库。 越来越好的大模型对算力需求日益高涨,而大模型训练与推理的高效部署都依赖越来越多的芯片通过互联在一起,高效协同以发挥出线性增长的计算效率。我们会与架构/硬件/Model 同学紧密合作以共同打造越来越符合业界需求的芯片,同时也会协同服务器/网络等伙伴共同打造基于平头哥芯片的高性能集群 solution,还会深入到各种应用场景去洞察并满足用户对多卡训练、推理在性能、鲁棒性、故障定位等各方面的需求,协同各方共同打造最高效、易用的平头哥多卡产品软件解决方案。 职位描述 1. 为芯片设计开发高性能、有竞争力的互联通信库; 2. 基于芯片、服务器、网络集群架构特性与互联通信应用模式进行极致性能优化; 3. 增强在大规模机器任务下发生 hang 或 crash 时的专家分析与诊断、定位能力; 4. 支持多卡或多机互联场景下各种用户问题分析与定位; 5. 和其他团队紧密合作,影响芯片、服务器与集群架构等方案设计和演进。

更新于 2026-03-24上海|杭州