logo of deepseek

深度求索运营运维工程师

社招全职DeepSeek地点:杭州状态:招聘

任职要求


1. 熟悉 Linux,熟悉计算机网络、操作系统基础知识
2. 熟悉 log、metric、trace及相关工具
3. 熟悉 K8S 集群运维、多集群管理、集群容灾多活
4. 有扎实的编程功底,熟练脚本语言(Python,B…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


主要负责 DeepSeek 产品云上、自建机房的业务部署、稳定性、可观测性和安全工作。作为运营运维同学,你可以:
1. 深度参与面向亿级日活用户的系统构建与优化
2. 深度参与面向 AI 的云基础设施的搭建与维护工作
3. 针对 AI 场景下不断出现的新的需求与挑战,不断探索前沿的解决办法
4. 持续优化系统稳定性、可观测性,深入业务细节
包括英文材料
Linux+
Kubernetes+
脚本+
Python+
Bash+
还有更多 •••
相关职位

logo of bytedance
社招O8293

1、负责字节跳动中国区线上海量服务器全生命周期运营运维管理和技术服务,面向业务提供和交付业界第一的服务器运营运维服务,促进和保障业务稳定发展;工作职责涵盖新产品运维引入、运维监管控等运营适配、线上运营管理、稳定性运营管理、数据中心服务器运维管理、维保维修、运营流程规范和平台系统规划建设等方向; 2、负责服务器新产品引入运营管理和适配体系化建设,包含制定服务器运维标准基线,规划设计、迭代优化新品可维护性、易维护性、稳定性方案,负责新品引入运营风险识别和评估评审、新产品运营运维方案建设适配等; 3、负责线上服务器基础运营服务,规划和建设稳定安全高效的基础运营服务架构和服务能力,包含固件升级、带外管理、开关机、重启、重装、搬迁等服务架构和能力; 4、负责线上服务器整体维保和技术支持服务交付,规划和建设稳定高效的维保和技术支持体系架构和运维能力,建设改配和利旧交付能力,打造稳定可靠低成本的维保和技术支持服务,保障业务连续性和持续发展; 5、负责线上服务器稳定性保障服务,规划和建设稳定性流程规范、平台系统、保障机制和能力,负责现网运营稳定性监控、稳定性风险识别、问题响应处理和保障措施,保障业务稳定健康运行; 6、负责数据中心IT运维服务,数据中心现场IT运营运维管理、园区物理管理和属地公共关系处理等工作,规划和建设标准化运维体系和能力,监控和防范数据中心IT运维风险,全方位保障数据中心稳定健康运行; 7、负责边缘机房物理资源软硬交付、线上网络服务器一体化运维服务,规划和建设边缘运营服务标准和能力,开展供应商及数据中心IT风险管理,协同商务以更优的服务和成本优势支持业务发展; 8、负责运营运维流程规划设计、管理和优化,平台系统方案规划和设计,通过系统化和自动化方案提升运营效率和质量。

更新于 2022-10-18深圳
logo of aliyun
社招1年以上诚云科技

1. 建立并完善风险管理机制,负责重大事件的上报和跟踪处理。 2. 制定/梳理管理制度、操作手册、应急管理流程和应急操作预案,优化数据中心的安全和IT资产工作。 3. 建立与运营商顺畅的沟通渠道,防止数据中心安全和运营风险,确保策略要求合规落地。 4. (设施)负责国内租算项目数据中心基础设施日常运维管理及安全运营的保障,制定各站点基础设施运维策略与运维计划并推动落地。 5. (设施)通过设施数字化运维管理,提高机房管控能力和兜底能力,保障各项核心指标达标。 6. (设施)落实数据中心内所有岗位的安全生产要求,推动各站点在环保、消防、职业健康、法务、廉正等方面的合规运营。 7. (设施)负责所在站点、机房楼的用电量、机柜用量等相关对账工作。 8. (设施)牵头每月与运营商举行机房运维沟通例会,总结当月运维工作的完成情况和存在的问题,确定下月运维工作任务。 9. (设施)支撑运营商运维团队培训,收集培训计划、培训记录及培训考核结果,跟进运维人才梯队建设、能力培养和考核管理。 10. (设施)协助运营商负责楼栋现场运维监督及应急响应,协调对接处理现场问题。 11. (设施)介入数据中心运维侧技术管理,为数据中心设计、设备选型等技术迭代提供技术支撑。

更新于 2025-11-03乌兰察布|嘉兴|中卫
logo of aliyun
社招2年以上诚云科技

1. 建立并完善风险管理机制,负责重大事件的上报和跟踪处理。 2. 制定/梳理管理制度、操作手册、应急管理流程和应急操作预案,优化数据中心的安全和IT资产工作。 3. 负责数据中心团队的日常管理、考核、人才梯队建设、能力培养,提升数据中心安全管理和运营质量。 4. 建立与运营商顺畅的沟通渠道,防止数据中心安全和运营风险,确保策略要求合规落地。 5. (设施)负责国内租算项目数据中心基础设施日常运维管理及安全运营的保障,制定各站点基础设施运维策略与运维计划并推动落地。 6. (设施)通过设施数字化运维管理,提高机房管控能力和兜底能力,保障各项核心指标达标。 7. (设施)落实数据中心内所有岗位的安全生产要求,推动各站点在环保、消防、职业健康、法务、廉正等方面的合规运营。 8. (设施)负责所在站点、机房楼的用电量、机柜用量等相关对账工作。 9. (设施)牵头每月与运营商举行机房运维沟通例会,总结当月运维工作的完成情况和存在的问题,确定下月运维工作任务。 10. (设施)支撑运营商运维团队培训,收集培训计划、培训记录及培训考核结果,跟进运维人才梯队建设、能力培养和考核管理。 11. (设施)协助运营商负责楼栋现场运维监督及应急响应,协调对接处理现场问题。 12. (设施)介入数据中心运维侧技术管理,为数据中心设计、设备选型等技术迭代提供技术支撑。

更新于 2025-12-31乌兰察布|嘉兴|中卫
logo of aliyun
社招5年以上诚云科技

1. 建立并完善风险管理机制,负责重大事件的上报和跟踪处理。 2. 制定/梳理管理制度、操作手册、应急管理流程和应急操作预案,优化数据中心的安全和IT资产工作。 3. 负责数据中心团队的日常管理、考核、人才梯队建设、能力培养,提升数据中心安全管理和运营质量。 4. 建立与运营商顺畅的沟通渠道,防止数据中心安全和运营风险,确保策略要求合规落地。 5. (设施)负责国内租算项目数据中心基础设施日常运维管理及安全运营的保障,制定各站点基础设施运维策略与运维计划并推动落地。 6. (设施)通过设施数字化运维管理,提高机房管控能力和兜底能力,保障各项核心指标达标。 7. (设施)落实数据中心内所有岗位的安全生产要求,推动各站点在环保、消防、职业健康、法务、廉正等方面的合规运营。 8. (设施)负责所在站点、机房楼的用电量、机柜用量等相关对账工作。 9. (设施)牵头每月与运营商举行机房运维沟通例会,总结当月运维工作的完成情况和存在的问题,确定下月运维工作任务。 10. (设施)支撑运营商运维团队培训,收集培训计划、培训记录及培训考核结果,跟进运维人才梯队建设、能力培养和考核管理。 11. (设施)协助运营商负责楼栋现场运维监督及应急响应,协调对接处理现场问题。 12. (设施)介入数据中心运维侧技术管理,为数据中心设计、设备选型等技术迭代提供技术支撑。

更新于 2026-01-06南京