商汤大装置-运维开发工程师（SRE）

社招全职业务运维2026-01-08地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

略

工作职责

该岗位欢迎具备以下方向中任意一个方向投递：
1. 系统运维开发工程师
2. 容器运维开发工程师
3. 存储运维开发工程师
4. 物理网络工程师
5. 云网络运维工程师

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

相关职位

大装置-集群运维开发工程师（容器方向）

社招3年以上业务运维

1. 负责公司K8S集群及中间件集群的可靠、稳定、高效运行，对系统中存在的问题进行汇总与分析，提出改进意见与建议。 2. 负责SRE体系及规范的建设与落地，在保证用户使用体验和稳定性的前提下，推动运维体系朝着云原生化的方向发展，持续改进整个系统的管理和运行效率，不断提升资源利用率。 3. 关注业界前沿容器及中间件相关技术动态，探索云原生技术的发展方向，推动新技术在团队中应用落地，提升整体技术水平。

更新于 2025-07-31

大装置-系统运维工程师（云主机OS方向）

社招5年以上业务运维

1. 负责裸金属、ECS等公有云产品运维保障工作，包括SRE评估、服务变更、应急响应、可视化、容量管理等问题解决。 2. 负责公司内部云平台整体的运维管理工作。

更新于 2025-07-31

大装置-物理网络工程师（三个方向）

社招5年以上其他

【方向一：SRE团队的物理网络工程师】你将作为 SRE 体系下的物理网络工程师，面向大规模、高稳定性要求的集群场景，承担 Underlay 网络的规划、交付与运行保障： 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化，包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维，保障网络稳定运行。 3. 参与集群网络的上线、扩容、升级与迁移，确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态，参与网络值班，快速定位并处理物理网络层面的故障与异常。 5. 与云网络 / SDN / Overlay 团队协作，支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档，包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术，推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。【方向二：系统架构组的网络架构师】 1. 负责 Underlay 网络架构设计规划，构建骨干网与云计算数据中心网络，并与虚拟网络协同，打造业界领先的云网一体化基础设施； 2. 负责高性能、高可用、高稳定的大规模云网络架构规划与骨干网架构构建以及技术细节； 3. 负责 IPAM、网络 QoS、数据网、训练/推理网监控系统的方案设计，构建数据中心物理网络的运维管理系统，满足性能和稳定性要求； 4. 负责多 region 的集群建设方案设计以及网络设备规划、成本计算，与硬件产品经理协同制定整体落地方案； 5. 负责新硬件的选型与准入工作，制定硬件准入的技术标准和测试流程，推动 sre 和研发进行设备的适配工作，网络硬件包括不限于：交换机、光模块、AOC 线缆等。【方向三：云网络研发组的网络软件开发工程师】 1. 参与物理网络相关能力的方案研究与验证，将交换机配置、网络拓扑等能力进行标准化与工程化抽象。 2. 研究华为、华三、Mellanox 等主流交换机的配置与特性，输出可复用的配置方案、模板或实现思路。 3. 根据云网络产品与平台需求，整理并实现交换机侧配置方案（如 CLI / NETCONF 调用），并与云网络研发团队协作落地。 4. 编写和维护与物理网络相关的验证脚本、自动化工具或测试用例，提升网络交付、验证与问题定位效率。 5. 以工程化视角，配合网络 SRE 团队参与部分线上问题的辅助排查与初步定位，推动问题复盘与方案优化。 6. 整理物理网络相关的技术文档、方案说明与问题经验，促进团队内的知识沉淀与复用。

更新于 2026-05-28北京|上海

大装置-智算云平台开发工程师

社招3年以上系统开发

你将参与公司核心云平台的研发与演进，围绕 Kubernetes 云原生体系，构建支撑 AI 训练、推理及大规模集群运行的平台级能力。根据个人背景与兴趣，可在 OpenAPI平台、容器平台、智算资源调度、云监控/可观测性等方向深入发展。工作职责 1. 参与云平台核心系统的设计与开发，支撑多集群、多环境（公有云 / 私有云 / 混合云）运行。 2. 基于 Kubernetes 体系，参与集群管理、资源调度、配置管理等平台能力建设。 3. 根据方向不同，参与以下一项或多项工作： · 大模型推理 OpenAPI 平台方向：对接不同推理引擎与推理框架，建设标准化接入平台。 · 云原生平台方向：Kubernetes 平台能力开发与优化（集群管理、CI/CD、平台工具链）。 · 智算云方向：面向 AI 训练/推理的资源调度、K8s 扩展（scheduler/controller/operator）。 · 可观测性方向：云监控与可观测性平台建设（指标、日志、Tracing 数据链路）。 4. 与系统、网络、SRE 等团队协作，持续提升平台的稳定性、可扩展性与可运维性。 5. 在实际项目中参与关键模块设计与技术方案评审，并推动方案落地。

更新于 2026-05-27北京