logo of baidu

百度云计算运维研发Devops工程师(J84514)

社招全职1-5年ACG地点:北京状态:招聘

任职要求


-专业倾向于计算机、通信、数学等理工学科,1-5年运维/SRE工作经验者优先,不限于稳定性、成本、效率等相关工作
-深入理解Linux操作系统;具备较好的计算机网络和体系结构基础
-熟练掌握Python/Go/Shell等至少一种主流编程…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


-Site Reliability Engineer,负责百度公司大规模分布式系统及各类云服务可靠、稳定、高效运行
-参与百度智能云系统和各类产品架构设计,主导服务可用性相关平台/自动化系统的实现
-设计研发智能云规模化运维的技术解决方案,包括大模型训练、服务器生命周期管理、高性能存储、交付、故障预测、成本管理等
-关注业界前沿技术动态,熟悉大模型框架、高性能通信、os/kernel、openstack、kvm、分布式存储、虚拟化网络等相关技术,贡献与引领业界技术趋势
包括英文材料
Linux+
Python+
Go+
还有更多 •••
相关职位

logo of tencent
社招1年以上CSIG技术

1.负责腾讯云效能提升专项工作,提升整体研发效率和交付质量;包括但不限于环境治理、工具开发、流程和方法的优化与改进,提升研发和工程生产力和效率; 2.赋能产研团队,帮助业务识别和分析研发测试环境中的痛点和问题,并提出解决方案,提供技术支持和工程赋能,推进各产品的测试、运维、发布等自动化和智能化落地; 3.协调各个团队,对研发测试环境治理进行持续改进,提炼、总结、发掘优秀实践并在组织内传播,推动落地; 4.备注:此岗位为腾讯集团旗下子公司编制。

更新于 2025-04-03西安
logo of xiaohongshu
校招基础后端

1、负责打造业界一流的 DevOPS 平台工程体系; 2、参与公司级统一建站、发布运维、变更管控等相关平台的系统设计、研发实现和稳定性保障; 3、通过技术工程和平台建设,提升公司日常研发运维、活动保障、机房迁移等场景的实施效率和质量; 4、洞察同领域业务发展方向,引入大模型提升 DevOPS 产品能力; 5、负责小红书多云架构下Finops平台技术架构和设计方案; 6、构建一流的技术服务商品体系,提升技术成本洞察及决策效率。

更新于 2025-09-13上海|杭州|北京
logo of amap
社招3年以上技术类-运维

高德运维研发团队主要负责高德运维平台的建设,对服务稳定性和用户体验负责,主要围绕如下几个方向进行卓有成效的工作: - 高可用方向:围绕混沌工程、故障自愈、全链路故障定位 等前沿技术方向进行平台化建设和智能运维大规模业务落地,提升系统的稳定性水平。 - 资源管理方向:将机器学习技术应用于超大规模集群的资源管理实践中,围绕 资源画像、应用画像、容量管理、全自动化弹性伸缩 等前沿方向进行算法优化和平台化建设。 - 云原生方向:基于实际业务场景,建设云原生时代的云上运维平台,提升云上业务在变更发布、资源调度 等方面的效率。

更新于 2025-11-12北京
logo of aliyun
社招3年以上云智能集团

业务支撑 • 负责资源编排ROS运维系统、AI诊断、AI运维助理、运维MCP等功能 • 负责资源编排ROS管控功能、资源逻辑和IaC引擎等模块 技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班Oncall、升级工单处置、Bug排查、问题诊断、产品体验改善、性能和成本优化等 稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议 技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地

更新于 2026-01-09北京|杭州