阿里云阿里云智能-AI异构软硬件结合研发专家-上海
任职要求
1. 具备扎实的工程能力 (C++,Python等); 2. 对GPU(或相关AI加速芯片)系统结构有深入的理解,有实际的开发和性能优化经验; 3. 熟悉主流深度学习框架(例如PyTorch),并对底层实现有较好了解,在模型训练或推理性能优化方面有实操经验; 4. 了解主流大模型的结构与执行细节,了解相关的推理性能优化技术; 5. 具备良好的沟通协作能力和项目组织能力,能与不同背景的团队有效沟通,合作,并对项目进行一定的组织与规划,以确保项目按时按质按量完成。 拥有以下经验者优先 a. 熟悉主流GPU算子优化工具(CUDA/Cutlass/Triton/NVSHMEM)和性能分析工具; b. 有深度学习框架和LLM推理引擎开发经验,如vLLM,SGLang,TensorRTLLM,PyTorch等; c. 有异构计算、编译等领域开发经验; d. 有高性能分布式计算相关经验。
工作职责
1. 负责研发AI异构计算软件栈,通过结合不同加速芯片的特性,实现AI计算的全链路优化,助力打造在业界具有竞争力的高可靠、高性能、高效率的大规模AI算力基础设施。 2. 结合具体业务场景,开展软硬件协同优化和技术创新(包括但不限于算子优化与编译、量化压缩,计算通讯融合,系统调度、分布式推理优化等工程任务),为实际业务提供卓越的性能和成本效益。 3. 洞察人工智能及深度学习的发展趋势,积极参与下一代AI基础设施的设计与研发。
1、跟踪行业最新技术动态,为公司的AI芯片技术发展提供前瞻性的建议和技术储备; 2、跟踪GPGPU/NPU行业最新动态、产品与技术架构,分析公司内外部业务系统需求,结合自研芯片架构,输出系统软硬件协同设计方案; 3、负责组织硬件平台、软件平台、生态平台等AI组件的SE专家,一起协同工作交付有竞争力的AI整体系统方案,并指导开发团队完成方案的开发交付落地; 4、推理基础设施方案设计,针对产品业务场景,优化模型在边缘设备(自研芯片平台、Jetson、机器人嵌入式系统)的部署性能,实现模型量化、动态计算图裁剪、异构硬件(GPU/NPU/FPGA)适配等关键技术;
1、设计并实现高效的AIGC工程/图像/视频处理软硬件一体化方案,参与媒体计算产品全生命周期开发。 2、负责系统性能调优,识别并解决关键瓶颈,提升稳定性与效率。 3、开发和维护底层驱动、基础软件及图像/视频SDK,确保硬件(ASIC/FPGA/GPU)与应用高效协同。
1. 基于对目前主流AI芯片的深刻理解,分析硬件系统结构,提供软硬件优化实践和调优指南; 2. 了解市场上主流AI,大数据,HPC应用对异构计算系统设计的挑战,应用AI加速芯片,设计打造高效异构计算产品; 3. 聚焦异构资源在线性能分析,负责系统级性能分析和业务瓶颈定位,助力异构集群的极致稳定; 4. 实现异构计算基础设施serverless化,驱动异构云原生架构演进; 5. 洞悉人工智能及深度学习的应用发展趋势,参与下一代机器学习算力产品设计。
蚂蚁算力调度团队负责蚂蚁通智算场景资源统一调度,帮助蚂蚁在线服务、大数据、AI等核心业务场景提升资源使用效率、优化工作负载性能、提高业务全局容错性和弹性资源保障。我们致力于打造高性能、规模化、有竞争力的算力调度系统,推动蚂蚁基础技术的不断创新与发展。我们重点工作领域包括: ● 研发通智算一体的高性能调度系统,支持云原生应用、分布式作业、函数任务等多种工作负载混合部署; ● 优化大规模任务调度,提升AI、大数据场景任务调度性能、优化并行计算场景作业编排; ● 结合硬件拓扑、网络架构,研发异构硬件优化调度算法,提升异构硬件下的服务/任务运行效率; ● 提升算力调度服务水平,保障大规模调度场景的服务可用性,提高系统化处理效率;