logo of xiaohongshu

小红书AI平台SRE研发工程师

社招全职3年以上运维开发地点:北京 | 上海 | 杭州状态:招聘

任职要求


任职要求:
计算机相关专业本科及以上学历,3年以上云平台或大规模分布式系统运维经验
扎实的Linux系统基础,熟悉常见问题诊断和性能优化方法
了解AI训练和推理的基础架构,熟悉GPU资源管理优先
精通DockerKubernetes等容器技术,有大规模集群运维经验
熟悉主流监控系统(如PrometheusGrafana)和日志系统(如ELK)
具备Python/Go等语言的开发能力,能独立开发自动化工具
熟悉CI/CD流程,具备DevOps实践经验
具备较强的问题分析和解决能力,良好的沟通协作能力
具有AI平台或机器学习平台运维经验者优先
加分项:
有大型互联网公司SRE工作经验
熟悉分布式系统理论,对系统架构设计有深入理解
参与过开源项目或有技术社区贡献
有MLOps相关实践经验

工作职责


负责AI平台基础设施的可靠性设计、监控告警、容量规划和性能优化
设计并实施平台的高可用性方案,制定灾备预案和故障响应机制
建立和完善AI平台的可观测性体系,包括日志、metrics、链路追踪等
负责自动化运维工具开发,提升平台运维效率和服务质量
分析和解决系统性能瓶颈,优化资源利用率
参与重大故障定位分析,制定改进方案并跟进落地
持续优化SLO指标,确保平台的稳定性和可靠性
包括英文材料
学历+
分布式系统+
Linux+
Docker+
Kubernetes+
Prometheus+
Grafana+
Python+
Go+
CI+
CD+
DevOps+
机器学习+
系统设计+
相关职位

logo of aliyun
社招3年以上云智能集团

1. 负责设计、开发和维护基于 Kubernetes 的自动化运维管理平台,提升对资源成本的控制、保障业务稳定性、提高运维效率; 2. 熟练使用Go/Java语言开发平台服务及底层Kubernetes组件能力; 3. 参与平台的高可用、性能优化、安全加固及自动化运维体系建设; 4. 基于AI技术,智能化解决容器层面的问题诊断、成本治理、告警降噪等问题; 5. 编写高质量、可维护的技术文档,推动团队技术沉淀与标准化。

更新于 2025-09-30
logo of bytedance
社招A135284

1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务; 2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发; 3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。

更新于 2024-09-18
logo of dingtalk
校招钉钉2026届秋

我们是SRE,我们用代码守护钉钉的业务稳定性,用平台能力降本提效。 我们设计并开发端到端的解决方案,包括网站加速、持续交付、容量管理、弹性伸缩、监控快恢、流量调度、性能优化等。 我们希望你,喜欢折腾操作系统、命令行、各端新技术; 我们希望你,鄙视重复,鄙视救火式的解决问题,以自动化为荣,以建设和实现真正的AI运维为追求; 我们希望你能站在全站的的高度,借助最前沿的运维技术和理念,通过工具创新、升级架构和方法,努力提升全站的稳定性及运维可靠性; 我们希望你能够站在用户的角度,不断完善产品的用户体验,影响到我们亿万的用户和消费者,让他们受益; 你想尝试下将阿里巴巴都跑在云上的感觉吗?想亲眼见证吗?加入我们。

更新于 2025-10-16
logo of bytedance
社招A194327C

1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务; 2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发; 3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。

更新于 2025-03-13