
商汤大装置-云计算SDN网络开发工程师
任职要求
- 计算机、电子、通讯相关专业,精通 C/C++/Golang 等系统编程语言,熟悉 Python、Shell 等脚本语言; - 1~3 年相关工作经验,有实际云网络 SDN 开发或者 NFV 开发经验,参与过中、大型项目; - 精通网络协议原理,如 TCP/IP、UDP、BGP 等,熟悉 Linux 网络协议栈和常用工具命令,如 iptables、tc、…
工作职责
- 设计和实现基于 k8s 的多租户高性能 SDN 控制器,支持 overlay 网络层 vxlan、geneve 等隧道协议; - 开发网络 NFV 模块,如 LB、Firewall 等,优化和加速 OVN、OVS 控制逻辑,提高网络服务的吞吐量和响应时间; - 开发 RDMA 相关的 RoCE 和 IB 网络协议模块,提升高速网络的数据传输性能和可靠性; - 参与网络架构的设计和评审,提出合理的建议和方案,进行网络故障排查和解决,确保网络的稳定性和可靠性; - 编写文档和测试用例,确保产品的质量和稳定性;与团队成员和其他相关部门进行有效的沟通和协作,推动项目的进展并达成目标。

1. 设计和实现多租户高性能 SDN 控制模块,基于 IB 网络和 RDMA 通信协议,以实现高效、稳定的大模型训练数据交换。 2. 提出合理的设备选型和组网架构方案,确保网络的稳定性和可靠性。对于网络故障,进行排查和解决,保证网络的正常运行。 3. 根据业务场景开发云网络功能模块,优化高速网络的数据传输效率、降低相应时间,并提升运维管理能力。 4. 深入了解 NVIDIA QUANTUM 和 SPECTRUM 交换机以及 ConnectX 网卡的主要特性和功能原理,以便能够充分利用其性能优势。 5. 编写相关文档和测试用例,确保产品的质量和稳定性。与团队成员和其他相关部门进行有效的沟通和协作,推动项目的进展并达成目标。

本岗位隶属于 SRE 团队,负责智算集群与科研级基础设施中的 Underlay 物理网络交付与稳定性保障。 Underlay 网络作为云网络(Overlay)的底座能力,为上层 SDN、容器网络和算力平台提供高可靠、低时延、可预测的网络基础。 你将作为 SRE 体系下的 物理网络工程师,面向大规模、高稳定性要求的集群场景,承担 Underlay 网络的规划、交付与运行保障: 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化,包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维,保障网络稳定运行。 3. 参与集群网络的 上线、扩容、升级与迁移,确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态,参与网络值班,快速定位并处理物理网络层面的故障与异常。 5. 与 云网络 / SDN / Overlay 团队协作,支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档,包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术,推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。

1. 参与SenseCore计算产品测试,包括参与需求分析、设计评审,制定测试计划,设计和执行测试用例,推动bug解决,输出测试报告; 2. 参与计算产品的自动化测试自动化测试用例开发、执行,CI/CD的接入等; 3. 参与计算产品的性能测试,可以进行性能测试脚本开发。