百度SRE运维开发工程师(J73254)
社招全职3年以上ACG地点:北京状态:招聘
任职要求
-全日制本科以上,专业不限,包含不仅限于计算机、通信、网络、安全等专业 -至少3年以上以上大型互联网公司或者公有云SAAS服务工作经验,有服务稳定性建设和数据质量建设经验优先 -深入理解Linux操作系统,具备较好的计算机网络和体系结构基础 -熟练掌握Java/Python/Shell等至少一种主流编程语言,能够使用脚本语言开发自动化任务 -熟悉Kubernetes/Docker/Chart/Prometheus/Grafana等云原生相关技术,有实际开发解决问题经验 -良好的逻辑思维和分析能力,热衷于解决问题、追求极致 -强烈的责任心、进取心、团队合作精神和Ownership
工作职责
-负责金融联合建模产品各类在线服务和自动化工具开发,保障服务可靠、稳定、高效运行,保障服务稳定性和数据质量,保障产品SLA -基于百度已有基础设施设计金融联合建模相关在线服务稳定性解决方案,包括预防、止损、降级、容量管理、弹性部署、故障分析、流量分配、性能调优等方案 -参与金融联合建模产品各类在线服务和各类模型产品部署运行架构设计,主导服务可靠性相关自动化系统的实现,满足严格的质量与效率要求 -利用百度已有基础设施和开源技术设计和实施产品监控系统、容灾策略和灾难恢复预案,响应和处理生产环境中的紧急事件,最小化服务中断 -关注业界前沿技术动态,负责大规模机器学习模型在线预测系统优化,演进和新接入技术探索和应用
包括英文材料
SaaS+
https://www.ibm.com/cn-zh/think/topics/saas
软件即服务 (SaaS) 是一种基于云的软件交付模式,服务提供商借此托管应用程序,并通过互联网向用户提供这些应用程序。
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Bash+
[英文] The Bash Guide
https://guide.bash.academy/
A quality-driven guide through the shell's many features.
https://www.youtube.com/watch?v=tK9Oc6AEnR4
Understanding how to use bash scripting will enhance your productivity by automating tasks, streamlining processes, and making your workflow more efficient.
脚本+
[英文] Scripting language
https://en.wikipedia.org/wiki/Scripting_language
https://zhuanlan.zhihu.com/p/571097954
一个脚本通常是解释执行而非编译。脚本语言通常都有简单、易学、易用的特性,目的就是希望能让程序员快速完成程序的编写工作。
Kubernetes+
https://kubernetes.io/docs/tutorials/kubernetes-basics/
This tutorial provides a walkthrough of the basics of the Kubernetes cluster orchestration system.
https://kubernetes.io/zh-cn/docs/tutorials/kubernetes-basics/
本教程介绍 Kubernetes 集群编排系统的基础知识。每个模块包含关于 Kubernetes 主要特性和概念的一些背景信息,还包括一个在线教程供你学习。
https://www.youtube.com/watch?v=s_o8dwzRlu4
Hands-On Kubernetes Tutorial | Learn Kubernetes in 1 Hour - Kubernetes Course for Beginners
https://www.youtube.com/watch?v=X48VuDVv0do
Full Kubernetes Tutorial | Kubernetes Course | Hands-on course with a lot of demos
Docker+
https://www.youtube.com/watch?v=GFgJkfScVNU
Master Docker in one course; learn about images and containers on Docker Hub, running multiple containers with Docker Compose, automating workflows with Docker Compose Watch, and much more. 🐳
https://www.youtube.com/watch?v=kTp5xUtcalw
Learn how to use Docker and Kubernetes in this complete hand-on course for beginners.
Prometheus+
https://grafana.com/docs/grafana/latest/getting-started/get-started-grafana-prometheus/
Prometheus is an open source monitoring system for which Grafana provides out-of-the-box support.
https://prometheus.io/docs/tutorials/getting_started/
Prometheus is a system monitoring and alerting system.
Grafana+
相关职位
社招A184847
1、负责字节跳动海内外广告系统的稳定性,保障系统持续、稳定运行; 2、参与广告系统稳定性架构设计,保障系统的长期高可用和可维护; 3、负责广告系统的容灾方案设计、演练和实施; 4、负责广告系统的机器资源管理与规划,提升资源效率; 5、负责广告系统运维工作自动化,包括线上变更、服务监控配置、资源管理等。
更新于 2024-01-19
社招A172760
1、负责维护语音相关服务系统的稳定,线上问题紧急干预处理,网络接入和机房拓扑优化等; 2、负责服务资源的管理与规划,包括GPU/CPU机器资源,以及其他存储和计算队列资源等。
更新于 2025-05-27
社招A162282
1、负责维护语音相关服务系统的稳定,线上问题紧急干预处理,网络接入和机房拓扑优化等; 2、负责服务资源的管理与规划,包括GPU/CPU机器资源,以及其他存储和计算队列资源等。
更新于 2025-05-27