
商汤大装置-运维开发工程师(SRE)

1. 负责公司K8S集群及中间件集群的可靠、稳定、高效运行,对系统中存在的问题进行汇总与分析,提出改进意见与建议。 2. 负责SRE体系及规范的建设与落地,在保证用户使用体验和稳定性的前提下,推动运维体系朝着云原生化的方向发展,持续改进整个系统的管理和运行效率,不断提升资源利用率。 3. 关注业界前沿容器及中间件相关技术动态,探索云原生技术的发展方向,推动新技术在团队中应用落地,提升整体技术水平。

1. 负责裸金属、ECS等公有云产品运维保障工作,包括SRE评估、服务变更、应急响应、可视化、容量管理等问题解决。 2. 负责公司内部云平台整体的运维管理工作。

【方向一:SRE团队的物理网络工程师】 你将作为 SRE 体系下的 物理网络工程师,面向大规模、高稳定性要求的集群场景,承担 Underlay 网络的规划、交付与运行保障: 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化,包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维,保障网络稳定运行。 3. 参与集群网络的 上线、扩容、升级与迁移,确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态,参与网络值班,快速定位并处理物理网络层面的故障与异常。 5. 与 云网络 / SDN / Overlay 团队协作,支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档,包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术,推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。 【方向二:系统架构组的网络架构师】 1. 负责 Underlay 网络架构设计规划,构建骨干网与云计算数据中心网络,并与虚拟网络协同,打造业界领先的云网一体化基础设施; 2. 负责高性能、高可用、高稳定的大规模云网络架构规划与骨干网架构构建以及技术细节; 3. 负责 IPAM、网络 QoS、数据网、训练/推理网监控系统的方案设计,构建数据中心物理网络的运维管理系统,满足性能和稳定性要求; 4. 负责多 region 的集群建设方案设计以及网络设备规划、成本计算,与硬件产品经理协同制定整体落地方案; 5. 负责新硬件的选型与准入工作,制定硬件准入的技术标准和测试流程,推动 sre 和研发进行设备的适配工作,网络硬件包括不限于:交换机、光模块、AOC 线缆等。 【方向三:云网络研发组的网络软件开发工程师】 1. 参与物理网络相关能力的方案研究与验证,将交换机配置、网络拓扑等能力进行 标准化与工程化抽象。 2. 研究华为、华三、Mellanox 等主流交换机的配置与特性,输出可复用的配置方案、模板或实现思路。 3. 根据云网络产品与平台需求,整理并实现交换机侧配置方案(如 CLI / NETCONF 调用),并与云网络研发团队协作落地。 4. 编写和维护与物理网络相关的 验证脚本、自动化工具或测试用例,提升网络交付、验证与问题定位效率。 5. 以工程化视角,配合网络 SRE 团队参与部分线上问题的辅助排查与初步定位,推动问题复盘与方案优化。 6. 整理物理网络相关的技术文档、方案说明与问题经验,促进团队内的知识沉淀与复用。

你将参与公司核心云平台的研发与演进,围绕 Kubernetes 云原生体系,构建支撑 AI 训练、推理及大规模集群运行的 平台级能力。 根据个人背景与兴趣,可在 OpenAPI平台、容器平台、智算资源调度、云监控/可观测性 等方向深入发展。 工作职责 1. 参与云平台核心系统的设计与开发,支撑多集群、多环境(公有云 / 私有云 / 混合云)运行。 2. 基于 Kubernetes 体系,参与集群管理、资源调度、配置管理等平台能力建设。 3. 根据方向不同,参与以下一项或多项工作: · 大模型推理 OpenAPI 平台方向:对接不同推理引擎与推理框架,建设标准化接入平台。 · 云原生平台方向:Kubernetes 平台能力开发与优化(集群管理、CI/CD、平台工具链)。 · 智算云方向:面向 AI 训练/推理的资源调度、K8s 扩展(scheduler/controller/operator)。 · 可观测性方向:云监控与可观测性平台建设(指标、日志、Tracing 数据链路)。 4. 与系统、网络、SRE 等团队协作,持续提升平台的稳定性、可扩展性与可运维性。 5. 在实际项目中参与关键模块设计与技术方案评审,并推动方案落地。