阿里云阿里云智能-智算集群通信优化技术专家-北京杭州

社招全职5年以上云智能集团2026-03-25地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

• 强烈的自我驱动力，对新技术有求知欲望和自学动力，可以理论结合实践的方式，快速的上手新的知识；

• 严谨的工作态度，尤其在面对实验和测试数据和理论分析时，始终保持批判性思维，消除实验误差，保证实验和理论相符；

• 有较强的对外沟通意愿，可以和上下游团队形成良好的协作关系，共同解决技术问题，推动项目落地；

•5 年以上Coding经验

• 对所负责的领域能够作为owner，充分理解自己团队在生产关系大图中的定位，与业务和协作团队关系，形成良好协作，及时解决职责/认知冲突类问题并驱动…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、技术方案设计

• 调研AI大模型训练及推理的前沿技术发展，分析前沿技术和网络的关联以及优化方向；

• 分析客户需求，帮助客户使用我们的产品和解决方案，帮忙客户进行性能优化；

2、技术实现

• 负责AI计算系统的通信库研发、测试、以及交付与支持

• 基于技术方案的拆解，按照任务目标和产出规范，完成任务/子任务的设计、编码开发和系统功能实现

• 负责核心功能的架构与代码模板的编写，开发与维护系统公用核心模块，技术架构重构、优化等

• 对编码进行阶段性的讨论和CodeReview，并通过调试优化，推动代码成功部署

• 对开发中和部署后的程序进行必要的维护和迭代，包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等

3、稳定性和性能优化

• 制定稳定性策略，寻找并解决产品系统中的潜在风险和瓶颈，覆盖线上疑难杂症问题，确保系统的安全可靠

• 运用产品优化技术和方法，进行性能优化，提高产品稳定性和性能

4、技术预研

• 分析AI业务通信pattern和发展趋势，探索通信库的优化空间，以及AI计算系统全栈的协同设计，提升系统端到端的稳定性和性能

5、技术规划

• 理解业务战略及重点，基于业务需求作出高性能、高可用、高可靠、高拓展性的技术架构规划和落地。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

系统设计+

相关职位

混合云异构计算工程师（J85179）

社招ACG

-建设业界领先的AI异构算力容器平台，提供高性能、高稳定性、高易用性的百舸产品，支持AIGC、智算中心、金融、 -结合 SOTA 模型训练推理优化原理，深入模型结构与设计思路，将训练推理优化手段工程实践化，为客户提供系统性加速方案，提升训推效率 -在自研芯片上适配常见大模型，结合深度学习训推框架特性，开发或调优相关算子，提升模型在芯片上的性能和精度表现，辅助客户进行芯片选型和应用 -针对大规模异构集群场景下，探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向，参与机器学习框架等开源社区，提升百度混合云AI核心竞争力

更新于 2025-05-15北京

大装置-物理网络工程师

社招5年以上业务运维

本岗位隶属于 SRE 团队，负责智算集群与科研级基础设施中的 Underlay 物理网络交付与稳定性保障。 Underlay 网络作为云网络（Overlay）的底座能力，为上层 SDN、容器网络和算力平台提供高可靠、低时延、可预测的网络基础。你将作为 SRE 体系下的物理网络工程师，面向大规模、高稳定性要求的集群场景，承担 Underlay 网络的规划、交付与运行保障： 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化，包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维，保障网络稳定运行。 3. 参与集群网络的上线、扩容、升级与迁移，确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态，参与网络值班，快速定位并处理物理网络层面的故障与异常。 5. 与云网络 / SDN / Overlay 团队协作，支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档，包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术，推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。

更新于 2025-12-31北京|上海

智算云-IaaS开发工程师（计算/存储/网络）

社招1-5年后端开发

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发，直接支撑大模型训练与AI基础设施建设； 2. 面对百亿参数级模型和超大规模集群的技术挑战，积累独特的工程经验； 3. 优秀的工程文化与导师机制，快速成长为系统架构师或平台负责人； 4. 行业内具竞争力的薪酬与晋升发展通道。【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / RDMA / eBPF / OpenStack / 智算云 / AI基础设施【岗位职责】作为商汤科技智算云核心基础设施团队成员，您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台，打造高性能、高可靠的云计算基础能力。主要工作包括：一、计算方向： 1. 负责虚拟化/容器化计算资源调度系统的设计与开发（KVM、Docker、Kubernetes、OpenStack等）。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。二、存储方向： 1. 参与高性能分布式存储系统（Ceph、HDFS、NVMe over Fabrics等）的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。三、网络方向： 1. 设计并开发高性能虚拟网络系统，支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。持续推进系统性能优化与架构演进，支撑智算中心规模化运营。

更新于 2025-10-22北京|上海

大装置-IaaS开发工程师（计算/存储/网络）

社招1-5年后端开发

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发，直接支撑大模型训练与AI基础设施建设； 2. 面对百亿参数级模型和超大规模集群的技术挑战，积累独特的工程经验； 3. 优秀的工程文化与导师机制，快速成长为系统架构师或平台负责人； 4. 行业内具竞争力的薪酬与晋升发展通道。【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / SDN / RDMA / DPDK / eBPF / OpenStack / 智算云 / AI基础设施【岗位职责】作为商汤科技智算云核心基础设施团队成员，您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台，打造高性能、高可靠的云计算基础能力。主要工作包括：一、计算方向： 1. 负责虚拟化/容器化计算资源调度系统的设计与开发（KVM、Docker、Kubernetes、OpenStack等）。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。二、存储方向： 1. 参与高性能分布式存储系统（Ceph、HDFS、NVMe over Fabrics等）的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。三、网络方向： 1. 设计并开发高性能虚拟网络系统，支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 3. 在物理网络与 Fabric 层，通过工程化与自动化方式支撑云网络平台能力。持续推进系统性能优化与架构演进，支撑智算中心规模化运营。

更新于 2026-01-27北京|上海