logo of nio

蔚来软件工程师(硬件加速方向)

社招全职3-5年算法地点:合肥 | 上海状态:招聘

任职要求


1.	计算机、自动化、电子工程、机器人相关专业,硕士及以上学历(优秀者可放宽至本科);
2.	熟练掌握 C/C++Python,具备良好的算法优化和代码工程能力;
3.	精通 CUDAOpenCL ,有 GPU 或DSP加速优化经验,熟悉并行计算原理;
4.	了解 TensorRT、TVM、XLA、oneDNN(MKL-DNN)等推理加速库,有算子级优化经验者优先;
5.	有良好的数学基…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.	智能设备算法加速和模型板端部署:优化SLAM(同步定位与建图)、视觉感知、路径规划、运动控制等核心算法,提高实时性和计算效率;
2.	硬件加速优化:基于 GPU(CUDA)、BPU(Horizon RDK)、NPU、FPGA 等硬件加速器,实现高效并行计算,优化推理和训练速度;
3.	深度学习优化:针对目标检测、语义分割、三维点云处理等任务,使用 TensorRT、TVM、oneDNN 等框架进行推理加速。
4.	算子优化:基于 TensorFlow、PyTorch、ROS 等生态,优化自定义算子,提高计算图执行效率。
5.	系统集成:与机器人软件、硬件团队协作,确保优化后的算法可无缝集成,并满足实时性和功耗需求。
6.	跨平台开发,负责智慧工厂存量&增量设备系统端应用开发;
包括英文材料
学历+
C+
C+++
Python+
算法+
CUDA+
OpenCL+
还有更多 •••
相关职位

logo of aliyun
社招8年以上云智能集团

1. 客情建设和商机拓展  主动洞察煤炭行业,识别出关键/潜在客户,并主动找到关键决策链,识别客户真实需求。  梳理客户决策链,识别关键客户,构建立体的客户沟通界面。  通过关键事件的导演和策划、商务沟通、拜访交流等方式和客户对话,获取客户信任,挖掘和洞察客户业务需求,形成有效商机。  定期与现有和潜在客户联系,及时了解客户的业务规划和预算、供应商情况、组织架构、技术环境等关键信息。  与客户CXO或CXO-D建立长期的业务关系,在合作中获得关键性支持。 2. 产品和技术价值传递  深入理解混合云、公共云、XC建设方案,包括软件、硬件、网络、安全等各方面的整合,并深刻洞察客户业务需求。  基于行业和客户需求洞察,帮助客户理解飞天云计算操作系统、七大件、AI/智算等阿里云产品的技术价值,以及相对竞企的差异化竞争优势。 3. 需求匹配和商机转化  协同SA、产研和生态伙伴等资源,形成明确的销售及解决方案策略,设计合作路径并沟通执行。  结合对客户业务需求的理解,以及阿里云可标准化复制的解决方案,提供能满足客户需求的方案设计,解答客户对产品、解决方案的常规问题。  通过沟通和影响力、商务报价等一系列销售策略的运用,转化商机,达成业绩。  将客户使用中遇到的影响客户体验的问题,反向推动内部解决,推动内部产品解决方案和流程体系的改进。 4. 商务运作和业务支持  基于阿里云和客户商务流程规则,完成客户招投标及商务合同签署等商务工作。  动态跟踪客户需求变化,推动合同变更。  协同产研、交付和生态伙伴等资源,及时发现并解决项目交付问题,支撑客户业务目标达成。  支撑混合云复杂项目运作,参与招投标流程管理、项目管理、风险管理,协调组织资源。

更新于 2025-10-22北京|杭州|南京
logo of antgroup
社招3年以上技术-开发

1、全同态/AI编译器开发:设计并实现高效的编译器框架,支持全同态加密或AI模型的自动编译与优化。开发编译器前端、中间表示(IR)及后端,确保编译器能够高效处理复杂的数学运算和加密逻辑。优化编译器性能,提升生成代码的执行效率和资源利用率。 2、算子DSL设计与实现:设计并实现领域特定语言(DSL),用于描述全同态加密或AI算子的数学表达式和计算流程。确保DSL具备良好的可扩展性,支持多种硬件平台和算法需求。提供清晰的DSL接口文档和开发者工具链,降低用户使用门槛。 3、算子优化:针对全同态加密或AI算子进行深度优化,包括但不限于内存访问模式、并行化策略和硬件加速。分析现有算子的性能瓶颈,提出并实施优化方案,显著提升计算效率。探索新型算法和硬件架构(如GPU、TPU、FPGA等)在算子优化中的应用。 4、跨团队协作:与算法团队、硬件团队及产品团队紧密合作,确保编译器和算子优化方案满足实际业务需求。参与技术讨论和代码评审,推动团队技术水平的整体提升。 5、技术研究与创新:跟踪全同态加密和AI领域的最新研究成果,探索其在编译器优化中的潜在应用。发表相关技术论文或专利,提升公司在行业内的技术影响力。

更新于 2025-09-24北京|上海
logo of tencent
社招TEG技术

1.​GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题; 2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求; 3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议; 4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。

更新于 2025-06-11北京
logo of tencent
社招TEG技术

1.​GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题; 2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求; 3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议; 4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。

更新于 2025-06-11深圳