阿里云阿里云智能-异构资源软硬件结合开发专家-杭州
任职要求
1.拥有扎实的编码功底,精通C/C++/Go/Rust等语言,拥有规范的工程化能力; 2.深入理解Linux系统,有大规模生产系统软件的开发与运维经验; 3.有大规模GPU集群监控,性能调优/profiling,调度经验; 4.熟悉异构计算编程, 熟悉主流AI加速芯片(如NVIDIA,AMD等)的系统结构和计算特性; 5.熟悉kubernetes系统架构和编程范式,有容器化技术实战经验; 6.具备英文技术文档研读能力,计算机相关专业背景,并具有5年及以上云计算或AI Infra研发经验。 优先考虑: 1. 有GPU驱动开发经验优先; 2. 有GPU稳定性链路建设经验优先; 3. 有GPU热迁移开发经验优先; 4. 有大规模GPU集群监控,在线Profiling和稳定性保障经验优先; 5. 有二次开发Kubernetes或Kubernetes异构资源管理经验优先; 6. 熟悉docker/containerd/runc,有OCI Hook开发经验优先。
工作职责
1. 基于对目前主流AI芯片的深刻理解,分析硬件系统结构,提供软硬件优化实践和调优指南; 2. 了解市场上主流AI,大数据,HPC应用对异构计算系统设计的挑战,应用AI加速芯片,设计打造高效异构计算产品; 3. 聚焦异构资源在线性能分析,负责系统级性能分析和业务瓶颈定位,助力异构集群的极致稳定; 4. 实现异构计算基础设施serverless化,驱动异构云原生架构演进; 5. 洞悉人工智能及深度学习的应用发展趋势,参与下一代机器学习算力产品设计。
1. 基于对目前主流AI芯片的深刻理解,分析硬件系统结构,提供软硬件优化实践和调优指南; 2. 了解市场上主流AI,大数据,HPC应用对异构计算系统设计的挑战,应用AI加速芯片,设计打造高效异构计算产品; 3. 聚焦异构资源在线性能分析,负责系统级性能分析和业务瓶颈定位,助力异构集群的极致稳定; 4. 实现异构计算基础设施serverless化,驱动异构云原生架构演进; 5. 洞悉人工智能及深度学习的应用发展趋势,参与下一代机器学习算力产品设计。
阿里云持续推进AI技术深化战略布局,围绕AI和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正在招募软硬件结合开发工程师,致力于打造下一代智能化软硬件一体化解决方案。 作为软硬件结合开发工程师,你将参与从底层硬件设计到上层软件优化的全流程研发工作,推动AI、云计算和大数据技术在高性能计算、异构计算等领域的创新与落地。具体职责包括但不限于以下方向: 岗位职责 1. 软硬件协同优化 负责软硬件协同设计,优化计算性能、能耗效率和系统稳定性。 针对特定应用场景(如AI推理、分布式存储、实时计算等),设计并实现高效的软硬件解决方案。 2. 基于FPGA/ASIC芯片的设计与开发 参与FPGA/ASIC芯片的设计与验证,包括算法映射、硬件架构设计和性能调优。 开发硬件抽象层(HAL)和相关工具链,支持硬件加速器与上层软件的无缝集成。 参与硬件加速器及系统仿真模型的开发和调试。 3. 计算平台底层软件开发 研发基于CPU、GPU、FPGA、ASIC等硬件的计算平台,提升AI训练和推理等业务的计算性能。 基于自研芯片平台,进行驱动和固件等开发,支持深度学习框架等软件在硬件平台上高效运行。 4. 操作系统与固件开发 优化Linux内核、设备驱动和固件,提升硬件资源利用率和系统响应速度。 开发针对特定硬件的定制化操作系统模块,满足高性能计算需求。 5. 开发者工具与生态建设 开发软硬件结合的开发者工具链(如SDK、CLI、IDE插件),降低开发门槛。 构建开放的技术生态,推动软硬件一体化解决方案的广泛应用。
团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、评估:负责评估符合业务要求的异构计算芯片,建立/完善评估体系、负载模型,预估业务收益; 2、推理:负责异构计算芯片落地实际推理业务,适配异构计算芯片特性,降低推理时延,提高推理吞吐; 3、训练:负责异构计算芯片落地实际训练业务,根据芯片计算、通信特性,优化显存占用,提高训练吞吐; 4、算子:负责开发异构计算芯片的高性能算子,根据芯片特性,优化算力、带宽利用率; 5、编译:负责通过编译技术实现异构计算芯片在不同业务场景中落地,负责实现更加高效的异构硬件编程范式; 6、调研:负责调研、验证前沿软硬件结合方向,比如稀疏计算(Sparse Computation)、存内计算(In-Memory Computing)、数据流计算(DataFlow)等。
团队介绍:字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。 豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。 1、评估:负责评估符合业务要求的异构计算芯片,建立/完善评估体系、负载模型,预估业务收益; 2、推理:负责异构计算芯片落地实际推理业务,适配异构计算芯片特性,降低推理时延,提高推理吞吐; 3、训练:负责异构计算芯片落地实际训练业务,根据芯片计算、通信特性,优化显存占用,提高训练吞吐; 4、算子:负责开发异构计算芯片的高性能算子,根据芯片特性,优化算力、带宽利用率; 5、编译:负责通过编译技术实现异构计算芯片在不同业务场景中落地,负责实现更加高效的异构硬件编程范式; 6、调研:负责调研、验证前沿软硬件结合方向,比如稀疏计算(Sparse Computation)、存内计算(In-Memory Computing)、数据流计算(DataFlow)等。