logo of aliyun

阿里云阿里云智能-AI集群通信优化技术专家-杭州/北京

社招全职5年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


• 强烈的自我驱动力,对新技术有求知欲望和自学动力,可以理论结合实践的方式,快速的上手新的知识;
• 严谨的工作态度,尤其在面对实验和测试数据和理论分析时,始终保持批判性思维,消除实验误差,保证实验和理论相符;
• 有较强的对外沟通意愿,可以和上下游团队形成良好的协作关系,共同解决技术问题,推动项目落地;
•5 年以上Coding经验
• 对所负责的领域能够作为owner,充分理解自己团队在生产关系大图中的定位,与业务和协作团队关系,形成良好协作,及时解决职责/认知冲突类问题并驱…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、技术方案设计
• 调研AI大模型训练及推理的前沿技术发展,分析前沿技术和网络的关联以及优化方向;
• 分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化;
2、技术实现
• 负责AI计算系统的通信库研发、测试、以及交付与支持
• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现
• 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等
• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署
• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等
3、稳定性和性能优化
• 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠
• 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能
4、技术预研
• 分析AI业务通信pattern和发展趋势,探索通信库的优化空间,以及AI计算系统全栈的协同设计,提升系统端到端的稳定性和性能
5、技术规划
• 理解业务战略及重点,基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
系统设计+
相关职位

logo of aliyun
社招8年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展,分析计算通信协同优化的技术方案; • 分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化; 2、技术实现 • 负责AI计算系统的通信优化方案设计,包括计算通信协同优化、通信库研发测试、以及交付与支持; • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠; • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 • 分析AI业务通信pattern和发展趋势,探索通信库的优化空间,以及AI计算系统全栈的协同设计,提升系统端到端的稳定性和性能。 5、技术规划 • 理解业务战略及重点,基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-25北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案; 2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率; 3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践; 4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。

更新于 2025-10-31北京|杭州
logo of aliyun
社招5年以上云智能集团

1. 负责灵骏集群的AI系统性能分析与优化,支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优,能快速且以工具/产品化方式识别性能瓶颈并提出解决方案; 2. 针对主流深度学习框架、分布式训练和模型部署场景等,进行性能调优,优化算子性能、通信性能、内存利用率等关键指标,提升集群整体运行效率; 3. 对AI系统进行性能建模与仿真,建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配,为集群建设提供数据支持;同时推荐最佳训练和模型部署配置,辅助用户拿到最佳性能实践; 4. 负责开发和维护性能分析工具,支持系统性能监控、瓶颈定位和优化效果评估,提供性能分析报告,为团队和客户提供性能优化建议。

更新于 2025-12-10北京|杭州|上海
logo of aliyun
社招5年以上云智能集团

1、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座在AI场景下如GPU集群调度、LLM模型分发、应用层感知的流量分发等相关需求分析以及技术方案设计; 2、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座的AI场景下的控制平面以及数据平面的开发以及维护,包括相关需求开发、性能优化、架构升级、稳定性保障等; 3、负责云网络虚拟化网元在AI训练/推理场景下的技术预研以及技术规划。

更新于 2025-11-27北京|杭州|南京