阿里云阿里云智能-AI性能优化技术专家-软硬协同加速-杭州
任职要求
1. 熟悉深度学习算法,对AI深度学习相关知识和技术栈有清晰的理解和认系统性的认知; 2. 熟悉AI部署和推理流程,工程能力强,具备独立工程研发、性能分析和落地能力; 3. 熟…
工作职责
1. 负责研发AI类算法的计算性能优化能力,解决大模型等情境的算力和访存瓶颈,提升AI模型在GPU、AI加速器等硬件上部署性能和效率,推动大模型普惠应用和高性价比的竞争力; 2. 负责研发业界SOTA的计算性能优化算法创新和工程落地,增强技术壁垒,并在云的商业业务中产生核心价值; 3. 负责高性能AI基础设施的构建,基于软硬结合的计算性能优化能力,在AI类业务场景尤其是大模型场景下,通过结合模型算法和硬件来充分挖掘软硬协同的组合优化潜力,实现单一领域无法达到的优化边界和收益,带来高价值的性能和成本优势。
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。