
商汤大装置-系统运维工程师(云主机OS方向)
任职要求
1. 有公有云主机类产品的实际运维经验,如操作系统安装、配置。 2. 熟悉 Go / Python 等开发语言,有DevOps/SRE相关工具、Infra开发经验。 3. 积极进取,良…
工作职责
1. 负责裸金属、ECS等公有云产品运维保障工作,包括SRE评估、服务变更、应急响应、可视化、容量管理等问题解决。 2. 负责公司内部云平台整体的运维管理工作。

1. 负责公司K8S集群及中间件集群的可靠、稳定、高效运行,对系统中存在的问题进行汇总与分析,提出改进意见与建议。 2. 负责SRE体系及规范的建设与落地,在保证用户使用体验和稳定性的前提下,推动运维体系朝着云原生化的方向发展,持续改进整个系统的管理和运行效率,不断提升资源利用率。 3. 关注业界前沿容器及中间件相关技术动态,探索云原生技术的发展方向,推动新技术在团队中应用落地,提升整体技术水平。

【方向一:SRE团队的物理网络工程师】 你将作为 SRE 体系下的 物理网络工程师,面向大规模、高稳定性要求的集群场景,承担 Underlay 网络的规划、交付与运行保障: 1. 负责智算/云计算集群 Underlay 物理网络的规划设计、部署交付与持续优化,包括网络拓扑、设备选型、配置与调试。 2. 负责交换机、路由器、防火墙等网络设备的配置、变更与日常运维,保障网络稳定运行。 3. 参与集群网络的 上线、扩容、升级与迁移,确保对上层 Overlay 网络和业务影响可控。 4. 监控网络运行状态,参与网络值班,快速定位并处理物理网络层面的故障与异常。 5. 与 云网络 / SDN / Overlay 团队协作,支持其在 Underlay 之上的网络能力建设与问题排查。 6. 编写和维护网络相关文档,包括网络拓扑、配置说明、运维手册、故障复盘等。 7. 持续研究数据中心与智算网络相关技术,推动 Underlay 网络在稳定性、可扩展性和运维效率上的演进。 【方向二:系统架构组的网络架构师】 1. 负责 Underlay 网络架构设计规划,构建骨干网与云计算数据中心网络,并与虚拟网络协同,打造业界领先的云网一体化基础设施; 2. 负责高性能、高可用、高稳定的大规模云网络架构规划与骨干网架构构建以及技术细节; 3. 负责 IPAM、网络 QoS、数据网、训练/推理网监控系统的方案设计,构建数据中心物理网络的运维管理系统,满足性能和稳定性要求; 4. 负责多 region 的集群建设方案设计以及网络设备规划、成本计算,与硬件产品经理协同制定整体落地方案; 5. 负责新硬件的选型与准入工作,制定硬件准入的技术标准和测试流程,推动 sre 和研发进行设备的适配工作,网络硬件包括不限于:交换机、光模块、AOC 线缆等。 【方向三:云网络研发组的网络软件开发工程师】 1. 参与物理网络相关能力的方案研究与验证,将交换机配置、网络拓扑等能力进行 标准化与工程化抽象。 2. 研究华为、华三、Mellanox 等主流交换机的配置与特性,输出可复用的配置方案、模板或实现思路。 3. 根据云网络产品与平台需求,整理并实现交换机侧配置方案(如 CLI / NETCONF 调用),并与云网络研发团队协作落地。 4. 编写和维护与物理网络相关的 验证脚本、自动化工具或测试用例,提升网络交付、验证与问题定位效率。 5. 以工程化视角,配合网络 SRE 团队参与部分线上问题的辅助排查与初步定位,推动问题复盘与方案优化。 6. 整理物理网络相关的技术文档、方案说明与问题经验,促进团队内的知识沉淀与复用。

关键词:关系型数据库( pg / PostgreSQL、MySQL) 1. 负责基础技术中间件的架构设计与研发,如分布式 KV 系统,分布式数据库,消息队列,RPC 服务框架,配置中心,分布式文件系统等; 2. 参与公司云基础设施建设、稳定性体系建设、研发体系优化等基础工作,深入分析与定位系统瓶颈,提高系统性能和稳定性; 3. 负责线上系统的运维工作,建设自动化运维与容灾同步能力,保障线上系统稳定运行。