
商汤大装置-集群运维开发工程师(容器方向)
社招全职3年以上业务运维状态:招聘
任职要求
1. 本科及以上学历,计算机及信息等相关专业优先,3年以上运维开发或集群运维经验,具备大规模生产环境下的Kubernetes运维经验 2. 熟悉 shell、go 语言,具备go开发经验,能够编写高效的自动化脚本和工具 3. 对中间件有丰富的运维部署或开发经验,如PostgreSQL、Kafka、Redis等 4. 熟悉k8s生态体系产品的管理、调度、运行、安全等原理机制并熟练使用,有大规模集群管理应用经验。 5. 熟悉operator/CRD/CSI/CNI/CRI等k8s扩展体系,有相关的运维或开发经验 6. 熟悉CI/CD工具链,如GitLab CI、Argocd等。
工作职责
1. 负责公司K8S集群及中间件集群的可靠、稳定、高效运行,对系统中存在的问题进行汇总与分析,提出改进意见与建议。 2. 负责SRE体系及规范的建设与落地,在保证用户使用体验和稳定性的前提下,推动运维体系朝着云原生化的方向发展,持续改进整个系统的管理和运行效率,不断提升资源利用率。 3. 关注业界前沿容器及中间件相关技术动态,探索云原生技术的发展方向,推动新技术在团队中应用落地,提升整体技术水平。
包括英文材料
相关职位

校招技术开发类
方向一:系统运维开发工程师 1.负责开发、测试或生产环境中服务器和应用系统的管理与监控,确保系统的稳定运行; 2.使用夜莺、Prometheus、Grafana等工具进行实时监控和数据分析,及时发现和解决潜在问题。 方向二:容器运维开发工程师 1. 协助公司K8s集群及中间件集群的运维; 2. 协助自动化平台、工具的落地开发; 3. 参与云原生技术的调研。
更新于 2025-10-11

社招5年以上业务运维
1. 负责云网络设备(交换机、路由器、防火墙等)配置调试,物理网络优化。 2. 监控网络运行状况,参与网络值班、故障排查和应急相应。 3. 参与网络升级改造、扩容、迁移等项目,编写技术文档,包括网络拓扑、配置说明、运维手册等。 4. 研究行业新技术,并结合业务需求进行技术创新。
更新于 2025-07-31

社招业务运维
1. 负责 GPU 服务器的选型、准入测试和验收工作。 2. 分析 GPU 性能瓶颈并进行性能调优工作,定位并解决 GPU 和相关的硬件故障。 3. 负责构建稳定可靠的测试机制和测试系统,设计测试方案支撑上层业务系统。 4. 与产品研发团队协同配合,参与千卡/万卡集群互联的软硬件方案设计,解决新硬件和系统落地过程中的各类技术问题。 5. 持续跟进智算产业链的最新技术能力和硬件架构,设计出有竞争力的硬件解决方案,支持产品经理向客户输出硬件服务器的技术文档。 6. 结合 GPU 产品业务场景做成本和收益评估,确定技术方案以支撑算力迭代、资源折算、项目输出标准化方案制定等工作;
更新于 2025-07-31