logo of baidu

百度云计算运维研发Devops工程师(J84514)

社招全职1-5年ACG地点:北京状态:招聘

任职要求


-专业倾向于计算机、通信、数学等理工学科,1-5年运维/SRE工作经验者优先,不限于稳定性、成本、效率等相关工作
-深入理解Linux操作系统;具备较好的计算机网络和体系结构基础
-熟练掌握Python/Go/Shell等至少一种主流编程…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


-Site Reliability Engineer,负责百度公司大规模分布式系统及各类云服务可靠、稳定、高效运行
-参与百度智能云系统和各类产品架构设计,主导服务可用性相关平台/自动化系统的实现
-设计研发智能云规模化运维的技术解决方案,包括大模型训练、服务器生命周期管理、高性能存储、交付、故障预测、成本管理等
-关注业界前沿技术动态,熟悉大模型框架、高性能通信、os/kernel、openstack、kvm、分布式存储、虚拟化网络等相关技术,贡献与引领业界技术趋势
包括英文材料
Linux+
Python+
Go+
还有更多 •••
相关职位

logo of tencent
社招1年以上CSIG技术

1.负责腾讯云效能提升专项工作,提升整体研发效率和交付质量;包括但不限于环境治理、工具开发、流程和方法的优化与改进,提升研发和工程生产力和效率; 2.赋能产研团队,帮助业务识别和分析研发测试环境中的痛点和问题,并提出解决方案,提供技术支持和工程赋能,推进各产品的测试、运维、发布等自动化和智能化落地; 3.协调各个团队,对研发测试环境治理进行持续改进,提炼、总结、发掘优秀实践并在组织内传播,推动落地; 4.备注:此岗位为腾讯集团旗下子公司编制。

更新于 2025-04-03西安
logo of aliyun
社招3年以上诚云科技

1、稳定性保障与体系建设:负责大模型相关核心业务系统的稳定性建设工作,提升业务可用性与可靠性。 2、高并发流量治理:高并发场景下的流量治理方案设计与实施,包括熔断、限流、降级等容灾策略,确保业务弹性与鲁棒性。 3、运维流程优化和自动化:推动运维自动化与平台化建设,提升研发效率。 4、架构高可用建设:业务系统稳定性架构方案的设计与实施,推动高可用架构落地,规避系统性风险。 5、应急响应:负责快速定位并解决生产环境故障,建立故障快速恢复机制,推动长效改进措施落地。

更新于 2025-11-24北京|杭州
logo of aliyun
社招2年以上云智能集团

1. 负责云通信与全球运营商之间的链接,完成短信、语音(含5G视频)、流量的系统规划、设计、实施和运维 2. 负责相关系统的云原生技术升级; 3. 参与构建面向全球服务的分布式高可用的融合通信网; 4. 具备项目管理或模块owner能力,能独立负责一块业务规划,架构,落地,优化; 5. 新人指导、培训及Code Review,主导技术难题攻关,提升团队整体技术水平。

更新于 2025-09-03北京|杭州
logo of xiaohongshu
社招3年以上运维开发

负责AI平台基础设施的可靠性设计、监控告警、容量规划和性能优化 设计并实施平台的高可用性方案,制定灾备预案和故障响应机制 建立和完善AI平台的可观测性体系,包括日志、metrics、链路追踪等 负责自动化运维工具开发,提升平台运维效率和服务质量 分析和解决系统性能瓶颈,优化资源利用率 参与重大故障定位分析,制定改进方案并跟进落地 持续优化SLO指标,确保平台的稳定性和可靠性

更新于 2025-07-05北京|上海|杭州