阿里云阿里云智能-AI加速计算产品技术专家-AI领域-杭州/上海
任职要求
1. 计算机科学、电子工程、通信工程、电气工程等相关专业背景;熟悉Python、Shell、C/C++等开发语言,拥有5年及以上相关工作经验; 2. 深入理解GPU芯片架构及服务器架构,熟悉PCIe规范、Linux内核、KVM虚拟化技术,并对GPU驱动、系统性能分析及其优化有丰富经验; …
工作职责
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。
1. 参与kuberGPU软件产品的设计与研发,包括kuberGPU软件的迭代研发,性能评估及优化,兼容性提升,新GPU的适配等。 2. 负责kuberGPU在云上的落地,包括与相关团队沟通和协调对接和部署工作,以及针对专属云做对应的kuberGPU软件的适配工作。 3. 保障kuberGPU产品在云上的的稳定性,包括定位和分析上线后遇到的问题,及时进行故障排查和修复。 4. 针对客户的需求和未来业内技术趋势,为业务方提供新的技术支持和建议,并作出高可用、高可靠、高拓展性的技术架构规划和落地。
1. 根据阿里云AI战略发展方向,结合人工智能技术演进与行业变革趋势,前瞻性地识别并开拓重点目标客户在大模型、智能计算等领域的业务机会; 2. 能够深入调研客户业务场景,敏锐捕捉行业中的应用痛点与创新潜力,结合阿里云产品及技术优势,促进客户需求与云产品的有效结合,提供立体、专业的咨询及服务,帮助客户成功,并沉淀行业解决方案; 3. 与客户或合作伙伴进行重点项目对接,能向客户高层解析阿里云AI优势,向业务高管呈现具有说服力的AI投资回报率(ROI)分析,加速商机转化; 4. 善于整合技术、生态与商业资源,攻克AI落地中的关键挑战,与客户技术决策层及生态合作伙伴建立深度信任关系,沉淀可复用的行业解决方案与最佳实践,为阿里云AI战略的长期发展储备关键客户与技术资产。
1. 根据阿里云AI战略发展方向,结合人工智能技术演进与行业变革趋势,前瞻性地识别并开拓重点目标客户在大模型、智能计算等领域的业务机会; 2. 能够深入调研客户业务场景,敏锐捕捉行业中的应用痛点与创新潜力,结合阿里云产品及技术优势,促进客户需求与云产品的有效结合,提供立体、专业的咨询及服务,帮助客户成功,并沉淀行业解决方案; 3. 与客户或合作伙伴进行重点项目对接,能向客户高层解析阿里云AI优势,向业务高管呈现具有说服力的AI投资回报率(ROI)分析,加速商机转化; 4. 善于整合技术、生态与商业资源,攻克AI落地中的关键挑战,与客户技术决策层及生态合作伙伴建立深度信任关系,沉淀可复用的行业解决方案与最佳实践,为阿里云AI战略的长期发展储备关键客户与技术资产。
- 参与大模型推理引擎(基于 SGLang 框架)的设计与核心模块开发,支持 Transformer、MoE、DiffusionLLM 等多种架构及 LLM/VLM 等模型的高性能推理。 - 运用编译优化、低比特计算、投机采样、稀疏计算、分布式推理等技术,加速大模型推理速度并降低部署成本, 并优化其稳定性、易用性。 - 针对 GPU/AI 芯片架构(含自研硬件),开展针对性性能调优,优化算子、内存管理、KV Cache 管理等核心模块 - 与算法、产品及业务团队协作,推动不同模型场景下的系统端到端性能优化 - 关注并引入前沿大模型推理技术,参与 SGLang 及相关开源生态的维护与贡献