蔚来软件工程师(硬件加速方向)
任职要求
1. 计算机、自动化、电子工程、机器人相关专业,硕士及以上学历(优秀者可放宽至本科); 2. 熟练掌握 C/C++ 和 Python,具备良好的算法优化和代码工程能力; 3. 精通 CUDA、OpenCL ,有 GPU 或DSP加速优化经验,熟悉并行计算原理; 4. 了解 TensorRT、TVM、XLA、oneDNN(MKL-DNN)等推理加速库,有算子级优化经验者优先; 5. 有良好的数学基…
工作职责
1. 智能设备算法加速和模型板端部署:优化SLAM(同步定位与建图)、视觉感知、路径规划、运动控制等核心算法,提高实时性和计算效率; 2. 硬件加速优化:基于 GPU(CUDA)、BPU(Horizon RDK)、NPU、FPGA 等硬件加速器,实现高效并行计算,优化推理和训练速度; 3. 深度学习优化:针对目标检测、语义分割、三维点云处理等任务,使用 TensorRT、TVM、oneDNN 等框架进行推理加速。 4. 算子优化:基于 TensorFlow、PyTorch、ROS 等生态,优化自定义算子,提高计算图执行效率。 5. 系统集成:与机器人软件、硬件团队协作,确保优化后的算法可无缝集成,并满足实时性和功耗需求。 6. 跨平台开发,负责智慧工厂存量&增量设备系统端应用开发;
1. 客情建设和商机拓展 主动洞察煤炭行业,识别出关键/潜在客户,并主动找到关键决策链,识别客户真实需求。 梳理客户决策链,识别关键客户,构建立体的客户沟通界面。 通过关键事件的导演和策划、商务沟通、拜访交流等方式和客户对话,获取客户信任,挖掘和洞察客户业务需求,形成有效商机。 定期与现有和潜在客户联系,及时了解客户的业务规划和预算、供应商情况、组织架构、技术环境等关键信息。 与客户CXO或CXO-D建立长期的业务关系,在合作中获得关键性支持。 2. 产品和技术价值传递 深入理解混合云、公共云、XC建设方案,包括软件、硬件、网络、安全等各方面的整合,并深刻洞察客户业务需求。 基于行业和客户需求洞察,帮助客户理解飞天云计算操作系统、七大件、AI/智算等阿里云产品的技术价值,以及相对竞企的差异化竞争优势。 3. 需求匹配和商机转化 协同SA、产研和生态伙伴等资源,形成明确的销售及解决方案策略,设计合作路径并沟通执行。 结合对客户业务需求的理解,以及阿里云可标准化复制的解决方案,提供能满足客户需求的方案设计,解答客户对产品、解决方案的常规问题。 通过沟通和影响力、商务报价等一系列销售策略的运用,转化商机,达成业绩。 将客户使用中遇到的影响客户体验的问题,反向推动内部解决,推动内部产品解决方案和流程体系的改进。 4. 商务运作和业务支持 基于阿里云和客户商务流程规则,完成客户招投标及商务合同签署等商务工作。 动态跟踪客户需求变化,推动合同变更。 协同产研、交付和生态伙伴等资源,及时发现并解决项目交付问题,支撑客户业务目标达成。 支撑混合云复杂项目运作,参与招投标流程管理、项目管理、风险管理,协调组织资源。
1、全同态/AI编译器开发:设计并实现高效的编译器框架,支持全同态加密或AI模型的自动编译与优化。开发编译器前端、中间表示(IR)及后端,确保编译器能够高效处理复杂的数学运算和加密逻辑。优化编译器性能,提升生成代码的执行效率和资源利用率。 2、算子DSL设计与实现:设计并实现领域特定语言(DSL),用于描述全同态加密或AI算子的数学表达式和计算流程。确保DSL具备良好的可扩展性,支持多种硬件平台和算法需求。提供清晰的DSL接口文档和开发者工具链,降低用户使用门槛。 3、算子优化:针对全同态加密或AI算子进行深度优化,包括但不限于内存访问模式、并行化策略和硬件加速。分析现有算子的性能瓶颈,提出并实施优化方案,显著提升计算效率。探索新型算法和硬件架构(如GPU、TPU、FPGA等)在算子优化中的应用。 4、跨团队协作:与算法团队、硬件团队及产品团队紧密合作,确保编译器和算子优化方案满足实际业务需求。参与技术讨论和代码评审,推动团队技术水平的整体提升。 5、技术研究与创新:跟踪全同态加密和AI领域的最新研究成果,探索其在编译器优化中的潜在应用。发表相关技术论文或专利,提升公司在行业内的技术影响力。
1.GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题; 2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求; 3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议; 4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。
1.GPU集群通信架构设计与优化:负责数据中心AI场景下GPU集群通信架构的设计与开发,优化多卡/多机通信性能,提升分布式训练效率;研究并实现GPU与网络设备(如交换机、RDMA网卡)的协同工作,解决通信延迟、带宽瓶颈等关键问题; 2.通信库与驱动开发:开发高性能GPU通信库(NCCL/DeepEP/NVsharemem 等),适配主流AI框架(TensorFlow/PyTorch),支持大规模集群通信需求; 3.GPU通信性能调优:分析通信性能瓶颈(硬件/软件层面),通过算法优化、代码重构或硬件选型提升整体吞吐量;与硬件团队协作,验证GPU新架构的通信能力,提供技术反馈与改进建议; 4.生态兼容与标准化:参与制定GPU通信协议标准,推动异构计算生态的互联互通。