
商汤大装置-物理网络工程师
任职要求
1. 本科及以上学历,计算机、通信、电子信息等相关专业。 2. 5 年及以上物理网络运维或网络架构经验,有真实设备配置与运维经历。 3. 熟悉数据中心 / 集群 Underlay 网络常见技术与协议,包括但不限于: TCP/IP、BGP、OSPF、MPLS、VXLAN。 4. 熟悉主流网络设备厂商(Cisco / Huawei / H3C 等)的配置、调试与故障排查。 5. 具备扎实的网络故障分析能力,能在复杂环境中快速定位 物理网络层问题。 能力要求 1. 理解 Underlay 与 Overlay 网络的分层关系,清楚物…
工作职责
本岗位隶属于 SRE 团队,负责智算集群与科研级基础设施中的 Underlay 物理网络交付与稳定性保障。 Underlay 网络作为云网络(Overlay)的底座能力,为上层 SDN、容器网络和算力平台提供高可靠、低时延、可预测的网络基础。 你将作为 SRE 体系下的 物理网络工程师,面向大规模、高稳定性要求的集群场景,承担 Underlay 网络的规划、交付与运行保障: 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化,包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维,保障网络稳定运行。 3. 参与集群网络的 上线、扩容、升级与迁移,确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态,参与网络值班,快速定位并处理物理网络层面的故障与异常。 5. 与 云网络 / SDN / Overlay 团队协作,支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档,包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术,推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。

该岗位欢迎具备以下方向中任意一个方向投递: 1. 系统运维开发工程师 2. 容器运维开发工程师 3. 存储运维开发工程师 4. 物理网络工程师 5. 云网络运维工程师

【我们提供】 1. 参与商汤自研智算云平台的底层核心研发,直接支撑大模型训练与AI基础设施建设; 2. 面对百亿参数级模型和超大规模集群的技术挑战,积累独特的工程经验; 3. 优秀的工程文化与导师机制,快速成长为系统架构师或平台负责人; 4. 行业内具竞争力的薪酬与晋升发展通道。 【岗位关键词】 IaaS / 云计算 / 分布式系统 / 存储 / 网络 / 容器 / Kubernetes / Ceph / SDN / RDMA / DPDK / eBPF / OpenStack / 智算云 / AI基础设施 【岗位职责】 作为商汤科技智算云核心基础设施团队成员,您将参与构建和优化支撑大规模AI训练与推理的IaaS底层平台,打造高性能、高可靠的云计算基础能力。主要工作包括: 一、计算方向: 1. 负责虚拟化/容器化计算资源调度系统的设计与开发(KVM、Docker、Kubernetes、OpenStack等)。 2. 优化GPU/CPU混合集群的资源利用率、任务调度和性能隔离机制。 二、存储方向: 1. 参与高性能分布式存储系统(Ceph、HDFS、NVMe over Fabrics等)的研发与优化。 2. 负责对象存储、块存储的性能调优与稳定性保障。 三、网络方向: 1. 设计并开发高性能虚拟网络系统,支持大规模AI训练与推理流量场景。 2. 参与SDN、RDMA、DPDK、eBPF 等前沿网络技术的研发与落地。 3. 在物理网络与 Fabric 层,通过工程化与自动化方式支撑云网络平台能力。 持续推进系统性能优化与架构演进,支撑智算中心规模化运营。

你将加入商汤科技大装置智能云事业群,协助交付项目经理推进 智能算力平台、云平台、私有化项目 的落地执行,参与企业级 AI 基础设施项目的全生命周期管理。 这是一个能够快速提升项目管理能力、了解云与智算行业、接触头部客户交付场景的实习机会。 岗位职责 1. 协助交付项目经理跟进项目进度:收集项目状态、整理任务列表、更新项目计划,推动事项闭环。 2. 参与交付流程文档工作:协助编写需求文档、实施方案、验收材料、会议纪要等交付文档。 3. 参与项目配置与交付准备工作:在项目经理指导下完成资源申请、环境准备、配置录入等基础交付操作。 4. 跨团队沟通支持:与研发、测试、售前、运维团队协作,推动信息同步与问题流转。 5. 项目运营与数据整理:协助收集并整理项目数据、风险清单、问题列表,为项目复盘提供输入。 6. 完成领导安排的其他交付支持相关工作。