logo of aliyun

阿里云阿里云智能-高性能网络技术高级开发工程师-北京/杭州

社招全职3年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


计算机科学、网络工程、电子工程等相关专业;
高性能网络或相关领域工作经验,熟练掌握C/C++PythonGolang 等主流编程语言
精通 Linux 系统编程和调优,熟悉 RDMA 技术原理(RoCE v2、InfiniBand)及应用场景,内核网络栈、DPDK 等高性能网络技术者优先;
具备良好的问题定位与解决能力,能独立处理大规模分布式系统的稳定性问题。
具备良好的学习能力和团队协作意识,…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


阿里云正在构建面向 AI 大模型训练与推理的下一代高性能网络基础设施,以支撑全球企业对极致算力与低延迟网络的需求。我们正在寻找一位在 RDMA(Remote Direct Memory Access) 技术领域有深厚经验的 DevOps 工程师,负责设计、部署和优化基于 RDMA 的 AI 训练集群网络架构,推动高性能网络技术在分布式 AI 场景的落地与创新。
核心职责:
1)AI 训练集群网络架构设计与运维
部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构,支撑大规模 AI 训练集群(如万卡级 GPU 集群);
优化分布式 AI 工作负载(如 NCCL、MPI)的网络性能,降低通信延迟,提升吞吐效率。
2)网络性能调优与问题解决
解决分布式训练中的复杂网络问题(如 NCCL/MPI 通信瓶颈、带宽利用率低等);
利用自动化工具进行网络资源分配、监控、诊断及性能分析(如延迟/吞吐量分析、端到端链路追踪)。
3)自动化与 CI/CD 实践
构建网络基础设施的 CI/CD 流水线(Infrastructure as Code),实现网络配置的自动化部署与版本管理;
开发自动化脚本与工具,提升网络运维效率与稳定性。
4)全生命周期网络管理
管理端到端网络生命周期(部署、配置、监控、升级),确保网络服务的高可用性与可扩展性;
设计并实施网络监控与告警体系,快速定位并修复潜在故障。
5)跨团队协作与技术落地
与 AI/ML 工程师紧密合作,排查训练/推理流水线中的网络瓶颈,提供针对性优化方案;
深度参与 AI 框架(如 TensorFlow、PyTorch)与底层网络基础设施的适配与性能调优。
包括英文材料
C+
C+++
Python+
Go+
Linux+
内核+
还有更多 •••
相关职位

logo of aliyun
社招5年以上云智能行业解决方

1、深入理解客户业务需求,帮助客户选择适合其业务场景的技术路径和产品组合,利用AI技术知识、架构方法、咨询技能来影响客户技术决策 2、与客户合作进行模型训练、推理和模型应用等POC,含展示功能、调整模型、优化模型性能、测试分析、Agent搭建、模型调用等内容 3、依据客户需求和技术研判,推动产研部门持续优化产品,助力提升产品竞争力,同时沉淀最佳实践,以及脚本、模板、参考架构等可复用的技术资产 4、持续跟踪行业动态和技术趋势,并与产品团队协作,打造创新的人工智能(大模型、智算、一体机等)解决方案 5、支持市场活动,作为领域专家参与市场洞察、行业标准、市场排名报告、白皮书撰写等活动,并在行业峰会、技术沙龙等市场活动中进行技术传播和分享

更新于 2025-06-16北京|杭州|上海
logo of tencent
社招5年以上基础安全-三部技

1.负责WAF系统核心功能的设计、开发和优化,包括流量接入、配置下发、大流量安全策略处理等模块; 2.优化系统性能,解决高并发、低延迟场景下的技术难题(如百万级QPS流量处理); 3.参与WAF与各种云原生产品集成方案设计与落地; 4.研究新型攻防模式,持续改进防御算法与规则匹配效率; 5.编写技术文档,推动团队代码规范与系统可维护性提升; 6.该岗位base地可open深圳/北京/杭州。

更新于 2025-12-08深圳
logo of xiaohongshu
社招基础后端

职位简介:负责南北向接入架构演进,包括七层负载均衡 和 GSLB全球负载均衡的开发以及相应的运维工作 岗位职责 建设高性能、高可用接入层,支持峰值数千万 QPS 的业务场景; 建设业内领先的混合云接入架构,从0-1支持QUIC/HTTP3接入; 负责南北流量的容灾架构,通过合理的容灾手段提升接入稳定性; 负责流量平台、内外网调度,高可用系统的设计和迭代,支持跨云、跨地域单元化流量调度; 负责团队内部核心产品的日常运维、调优、排障和接入平台的持续优化;

更新于 2025-09-13北京|上海|杭州
logo of xiaohongshu
社招1年以上运维开发

网络工程师-数据中心方向 1、负责数据中心网络架构设计、网络规划、建设交付,并结合公司业务发展持续优化网络性能; 2、负责数据中心交换机、路由器、负载均衡等网络设备的运维管理、事件响应和应急处理工作,对网络带宽使用进行分析调优; 3、负责网络设备(路由器/交换机)的选型、测试、RMA等工作; 4、负责网络前沿技术研究,根据业务发展的需求,完成技术方案设计与项目落地。

上海|北京|杭州