logo of aliyun

阿里云阿里云智能-云网络系统研究工程师(AI方向)-杭州

社招全职3年以上云智能集团地点:杭州状态:招聘

任职要求


1. 教育与背景
● 计算机科学、计算机工程、电子工程、人工智能、网络工程等相关专业;
● 有 3 年及以上相关领域全职研发或科研经验(含博士期间产业实习经历者可视情况折算);
● 在网络系统、分布式系统、AI infra 等方向有扎实理论基础和实践经历。
2. 技术能力
满足下列多项条件者优先,资深/专家级别将根据深度与广度综合评估:
● 深入理解计算机网络原理与协议栈,对数据中心网络、云网络架构有体系化认知;
● 熟悉 RDMA 相关协议(RoCE 等)以及多路径传输相关技术(如 MPTCP、QUIC、多路径调度策略等),有实战优化经验者优先;
● 理解现代计算机体系结构及其对网络和高性能计算的影响,如 NUMA、PCIe 拓扑、GPU/加速卡互联等;
● 对高性能网络和 AI Infra 前沿方向有实践经验之一或多项:
    ○ AI 训练/推理集群网络优化、计算–通信 overlap
    ○ GPU 集群拓扑与流量工程
    ○ 量化感知推理、模型并行与通信优化
● 有高性能网络内核/用户态协议栈、可编程交换机(P4)、自研 NIC/SmartNIC 等相关经验者加分;
● 对云原生基础…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 面向 AI 业务的网络架构设计与演进
    ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计,覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。
    ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈,提出系统级优化方案。
2. 高性能多路径传输与 RDMA 方向创新
    ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术,系统性分析其优缺点与适用场景。
    ○ 基于阿里云大规模生产环境,设计并落地面向 AI 流量的多路径传输优化机制,实现端到端的高带宽、低时延和高稳定性。
3. 网络系统研发与产品化落地
    ○ 将整体技术方案拆解为可实施的技术点,完成可行性分析、技术规范制定与验收标准设计。
    ○ 主导关键模块的架构设计与核心代码开发,构建可快速迭代的原型系统,验证技术路线。
    ○ 在验证基础上持续进行性能优化与工程化改造,推动方案产品化落地,并支撑大规模部署和运营。
4. 稳定性与性能优化
    ○ 制定并实施面向超大规模集群的稳定性保障策略,从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。
    ○ 在真实业务环境中开展端到端性能剖析与容量规划,识别热点与瓶颈,落地针对性优化措施,保障高负载下的稳定性能表现。
5. 数智一体的网络分析与智能运维
    ○ 利用大数据与大语言模型,设计并研发超大规模网络分析与智能运维系统,提升网络研发、运营、运维、测试效率。
    ○ 探索 AI for Network 的创新场景,如异常检测、故障根因定位、智能调度策略优化等。
6. 学术前沿跟踪与技术影响力建设
    ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势,并评估其在阿里云场景中的落地价值。
    ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享,增强团队和个人在业界的技术影响力。
包括英文材料
分布式系统+
内核+
Kubernetes+
Service Mesh+
C+
C+++
还有更多 •••
相关职位

logo of bytedance
社招A90640

1、负责混合云云原生AI Infra技术架构设计、推理场景系统优化、云原生AI套件等开发工作; 2、负责研发AI异构计算软件栈,通过结合不同硬件、高性能网络、缓存等技术,实现AI计算的全链路优化,助力打造高可靠、高性能、高效率的AI算力基础设施; 3、洞察人工智能及深度学习的发展趋势,积极参与下一代AI基础设施的设计与研发。

更新于 2025-02-26杭州
logo of aliyun
实习阿里云2026届

阿里云持续推进AI 技术深化战略布局, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 我们用代码守护阿里云的业务稳定性,用平台能力降本提效。 我们设计并开发端到端的解决方案,包括网站加速、持续交付、容量管理、弹性伸缩、监控快恢、流量调度、性能优化等。 我们希望你,喜欢折腾操作系统、命令行、各端新技术; 我们希望你,鄙视重复,鄙视救火式的解决问题,以自动化为荣,以建设和实现真正的AI运维为追求; 我们希望你能站在全站的的高度,借助最前沿的运维技术和理念,通过工具创新、升级架构和方法,努力提升全站的稳定性及运维可靠性; 我们希望你能够站在用户的角度,不断完善产品的用户体验,影响到我们亿万的用户和消费者,让他们受益。

更新于 2025-06-17杭州
logo of aliyun
实习阿里云2026届

阿里云持续推进AI 技术深化战略布局, 围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此,我们正积极招募优秀人才: 如果你对基础技术感兴趣,热衷于高性能分布式技术,如果你喜欢研究搜索技术,对云计算等相关产品技术感兴趣,那就加入我们吧! 具体职责包括但不限于: 1、参与基础软件的设计、开发和维护,如分布式文件系统、缓存系统、Key/Value存储系统、数据库、Linux操作系统等; 2、参与世界级规模的分布式服务端程序的系统设计,为阿里巴巴的产品提供强有力的后台支持,在海量的网络访问和数据处理中,设计并设施最强大的解决方案; 3、参与搜索引擎各个功能模块的设计和实现,构建高可靠性、高可用性、高可扩展性的体系结构,满足日趋复杂的业务需求; 4、参与产品的开发和维护,完成从需求到设计、开发和上线等整个项目周期内的工作; 5、参与项目为用户提供丰富而有价值的桌面或无线软件产品。

更新于 2025-06-17北京|成都|杭州
logo of bytedance
社招A23916

1、负责混合云PaaS方向架构设计、系统开发,容器服务等产品化工作; 2、负责混合云云原生AI套件,GPU架构的研发,提升AI效率、性能。

更新于 2024-11-13杭州