阿里云阿里云智能-AI集群通信优化技术专家-杭州/北京

社招全职5年以上云智能集团2025-12-24地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

• 强烈的自我驱动力，对新技术有求知欲望和自学动力，可以理论结合实践的方式，快速的上手新的知识；
• 严谨的工作态度，尤其在面对实验和测试数据和理论分析时，始终保持批判性思维，消除实验误差，保证实验和理论相符；
• 有较强的对外沟通意愿，可以和上下游团队形成良好的协作关系，共同解决技术问题，推动项目落地；
•5 年以上Coding经验
• 对所负责的领域能够作为owner，充分理解自己团队在生产关系大图中的定位，与业务和协作团队关系，形成良好协作，及时解决职责/认知冲突类问题并驱…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、技术方案设计
• 调研AI大模型训练及推理的前沿技术发展，分析前沿技术和网络的关联以及优化方向；
• 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化；
2、技术实现
• 负责AI计算系统的通信库研发、测试、以及交付与支持
• 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现
• 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等
• 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署
• 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等
3、稳定性和性能优化
• 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠
• 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能
4、技术预研
• 分析AI业务通信pattern和发展趋势，探索通信库的优化空间，以及AI计算系统全栈的协同设计，提升系统端到端的稳定性和性能
5、技术规划
• 理解业务战略及重点，基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

系统设计+

相关职位

分布式存储研发工程师/专家-存储&数据库部

社招1年以上基础后端

-负责公司新一代统一分布式存储（对象+文件）的核心架构设计与研发。面向 EB 级海量数据，打造百Tbps 级超高带宽与微秒级极低延迟的高可用存储服务，全面支撑AGI、社交、推荐、搜索、电商、广告等核心业务场景 -深入剖析大模型训练与推理的 I/O 特征，攻克集群计算中的 I/O带宽和延迟瓶颈与百亿文件等难题，保障采集、清洗、训练、发布等全流程在统一存储上无缝运行，彻底打破“存储墙”，极致提升 GPU 算力利用率。 -紧跟下一代硬件架构趋势，结合 PCIe 5.0 高带宽特性与QLC、FDP等新型固态存储技术进行底层 I/O 栈重构；探索 CXL 内存/存储池化、DPU/SmartNIC 硬件卸载及 GPUDirect Storage 技术，实现极致的内核旁路（Bypass Kernel）与端到端零拷贝优化，不断突破单机与集群的性能极限。

更新于 2026-04-09北京|上海|杭州

阿里云智能-AI集群通信优化高级技术专家-北京/杭州

社招8年以上云智能集团

1、技术方案设计 • 调研AI大模型训练及推理的前沿技术发展，分析计算通信协同优化的技术方案； • 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化； 2、技术实现 • 负责AI计算系统的通信优化方案设计，包括计算通信协同优化、通信库研发测试、以及交付与支持； • 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现； • 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等； • 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署； • 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3、稳定性和性能优化 • 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠； • 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能。 4、技术预研 • 分析AI业务通信pattern和发展趋势，探索通信库的优化空间，以及AI计算系统全栈的协同设计，提升系统端到端的稳定性和性能。 5、技术规划 • 理解业务战略及重点，基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-25北京|杭州

阿里云智能-AI系统性能优化技术专家-北京/杭州

社招5年以上云智能集团

1. 负责灵骏集群的AI系统性能分析与优化，支持客户多个AI作业场景在不同平台芯片和多种集群规模下的适配和性能调优，能快速且以工具/产品化方式识别性能瓶颈并提出解决方案； 2. 针对主流深度学习框架、分布式训练和模型部署场景等，进行性能调优，优化算子性能、通信性能、内存利用率等关键指标，提升集群整体运行效率； 3. 对AI系统进行性能建模与仿真，建立Roofline模型等性能分析工具。通过仿真结果辅助系统设计和资源分配，为集群建设提供数据支持；同时推荐最佳训练和模型部署配置，辅助用户拿到最佳性能实践； 4. 负责开发和维护性能分析工具，支持系统性能监控、瓶颈定位和优化效果评估，提供性能分析报告，为团队和客户提供性能优化建议。

更新于 2025-10-31北京|杭州

阿里云智能-模型性能优化专家-PAI

社招5年以上云智能集团

你将加入PAI平台团队，负责面向各类AI应用场景的模型训练与推理性能优化工作。该岗位聚焦于AI计算性能与系统效率的极致提升，以多层次优化手段，持续提升模型训练与推理的速度、稳定性与资源利用率，具体工作内容包含但不限于： ● 分析客户模型在不同硬件（GPU、NPU、CPU 等）和集群环境中的性能瓶颈，制定优化方案； ● 对主流深度学习框架（如 PyTorch、TensorFlow、JAX 等）进行算子、内核或图优化； ● 深入理解分布式训练架构（如数据并行、模型并行、流水并行等），优化通信与调度性能； ● 在推理端负责模型性能瓶颈分析，并进行量化、剪枝、融合、TensorRT/ONNX Runtime 等优化； ● 与平台团队协作，优化训练任务调度、算力利用、容器化运行效率以及多租户资源隔离； ● 支持重点客户模型性能调优，提供端到端性能优化方案与技术支持。

更新于 2025-11-17北京|杭州|上海