百度容器网络工程师(J69929)
任职要求
-本科及以上学历,计算机科学或相关专业 -具备2年以上容器网络相关领域的工作经验 -深入了解TCP/IP协议栈、路由、交换等网络基础知识 -熟悉Docker、Kubernetes等容器技术,有实际项目经验者优先 -熟悉Flannel、Calico、Weave等主流容器网络解决方案,…
工作职责
-负责设计和构建高效、可扩展的容器网络解决方案,以满足不断增长的业务需求 -深入了解容器网络技术,包括但不限于Docker、Kubernetes、Flannel等,并能够根据项目需求进行选型和配置 -持续优化网络性能,解决网络瓶颈,提高网络可用性和可靠性 -与团队合作,推动容器网络技术的创新和发展
-负责设计和构建高效、可扩展的容器网络解决方案,以满足不断增长的业务需求 -深入了解容器网络技术,包括但不限于Docker、Kubernetes、Flannel等,并能够根据项目需求进行选型和配置 -持续优化网络性能,解决网络瓶颈,提高网络可用性和可靠性 -与团队合作,推动容器网络技术的创新和发展

本岗位隶属于 SRE 团队,负责智算集群与科研级基础设施中的 Underlay 物理网络交付与稳定性保障。 Underlay 网络作为云网络(Overlay)的底座能力,为上层 SDN、容器网络和算力平台提供高可靠、低时延、可预测的网络基础。 你将作为 SRE 体系下的 物理网络工程师,面向大规模、高稳定性要求的集群场景,承担 Underlay 网络的规划、交付与运行保障: 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化,包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维,保障网络稳定运行。 3. 参与集群网络的 上线、扩容、升级与迁移,确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态,参与网络值班,快速定位并处理物理网络层面的故障与异常。 5. 与 云网络 / SDN / Overlay 团队协作,支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档,包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术,推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。
1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计,覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈,提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术,系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境,设计并落地面向 AI 流量的多路径传输优化机制,实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点,完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发,构建可快速迭代的原型系统,验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造,推动方案产品化落地,并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略,从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划,识别热点与瓶颈,落地针对性优化措施,保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型,设计并研发超大规模网络分析与智能运维系统,提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景,如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势,并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享,增强团队和个人在业界的技术影响力。
