
智能互联智能互联-系统性能优化专家-杭州/上海
任职要求
1、计算机科学或相关领域的本科及以上学历; 2、5年以上Android/Linux等BSP领域开发经验; 3、对Linux CPU调度,EAS,文件系统,内存管理的一个或多个领域有很深的技术理解,有实…
工作职责
1、从性能角度规划Kernel领域(调度,文件系统,内存管理等)的技术方向; 2、结合实际产品线需求,架构和规划技术方案提升Android终端整体性能; 3、攻坚产品性能痛点,输出技术解决方案,提升产品竞争力; 4、完技术方案的开发和产品交付。
1、从性能角度规划Kernel领域(调度,文件系统,内存管理等)的技术方向; 2、结合实际产品线需求,架构和规划技术方案提升Android终端整体性能; 3、攻坚产品性能痛点,输出技术解决方案,提升产品竞争力; 4、完技术方案的开发和产品交付。
1. 负责灵骏集群的AI集群资源效能性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案; 2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率; 3. 对AI集群资源效能进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践; 4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。
1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责公共云异构计算产品的研发与交付。深度参与研发流程,确保产品从研发到运维的全生命周期高效管理; 2. 跟踪和了解新的异构计算产品技术和趋势,探索前沿的GPU架构设计与技术,理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地; 3. 联合网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力; 4. 研发并持续改进系统的稳定性和安全性,制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,提高产品稳定性和性能确保平台的安全可靠运行,并不断提升对外服务质量标准。