百度网络系统工程师(J82928)
任职要求
-计算机、通信或相关专业应届毕业生 -熟悉TCP/IP协议和计算机网络相关原理 -熟悉Linux操作系统,并掌握Linux环境下的C/ C++/Go/Python/Shell等至…
工作职责
-负责行业领先的超大规模云基础设施网络系统和计算集群的规划设计、工程建设与性能调优 -管理覆盖全球的网络、服务器集群,确保安全、稳定、高效运行 -建立新一代智能化运营体系,构建海量运营数据分析及智能运维平台 -推动超大网络系统架构演进、性能优化及关键组件设计研发
-负责IDC网络资源的整体规划,制定中长期规划、跟进短期规划的实施并根据业务变化动态调整 -负责业务网络资源需求管理,跟进业务需求滚动预测&需求变更 -负责业务网络资源交付进度的跟进和问题解决,确保交付SLA -负责IDC网络资源交付、综合布线相关的项目管理 -负责百度超大型数据中心弱电、工艺系统规划、设计、落地及项目建设把控,确保技术的领先性,成为行业标杆
研发构建从通信库、协议栈、网卡到交换机、网关等全领域场景网络产品与服务,提供快手超大规模数据中心网络的端到端的高性能低成本的整体解决方案,为业务发展提供技术支撑和驱动能力,候选人可从事如下子领域方向工作: 1、负责白盒交换机系统研发; 2、负责网关系统研发,包括L4层负载均衡网关、VxLan网关、流量调度网关、安全网关等; 3、负责虚拟(容器)网络系统研发; 4、负责高性能网络(集合通信库、RDMA协议栈、用户态网络协议栈)系统研发。
研发构建从通信库、协议栈、网卡到交换机、网关等全领域场景网络产品与服务,提供快手超大规模数据中心网络的端到端的高性能低成本的整体解决方案,为业务发展提供技术支撑和驱动能力,候选人可从事如下子领域方向工作: 1、负责白盒交换机系统研发; 2、负责网关系统研发,包括L4层负载均衡网关、VxLan网关、流量调度网关、安全网关等; 3、负责虚拟(容器)网络系统研发; 4、负责高性能网络(集合通信库、RDMA协议栈、用户态网络协议栈)系统研发。
1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计,覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈,提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术,系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境,设计并落地面向 AI 流量的多路径传输优化机制,实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点,完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发,构建可快速迭代的原型系统,验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造,推动方案产品化落地,并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略,从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划,识别热点与瓶颈,落地针对性优化措施,保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型,设计并研发超大规模网络分析与智能运维系统,提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景,如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势,并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享,增强团队和个人在业界的技术影响力。