logo of xiaohongshu

小红书AI平台SRE研发工程师

社招全职3年以上运维开发地点:北京 | 上海 | 杭州状态:招聘

任职要求


任职要求:
计算机相关专业本科及以上学历,3年以上云平台或大规模分布式系统运维经验
扎实的Linux系统基础,熟悉常见问题诊断和性能优化方法
了解AI训练和推理的基础架构,熟悉GPU资源管理优先
精通DockerKubernetes等容器技术,有大规模集群运维经验
熟悉主流监控系统(如PrometheusGrafana)和日志系统(如ELK…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责AI平台基础设施的可靠性设计、监控告警、容量规划和性能优化
设计并实施平台的高可用性方案,制定灾备预案和故障响应机制
建立和完善AI平台的可观测性体系,包括日志、metrics、链路追踪等
负责自动化运维工具开发,提升平台运维效率和服务质量
分析和解决系统性能瓶颈,优化资源利用率
参与重大故障定位分析,制定改进方案并跟进落地
持续优化SLO指标,确保平台的稳定性和可靠性
包括英文材料
学历+
分布式系统+
Linux+
Docker+
Kubernetes+
Prometheus+
Grafana+
还有更多 •••
相关职位

logo of aliyun
社招3年以上云智能集团

1. 负责设计、开发和维护基于 Kubernetes 的自动化运维管理平台,提升对资源成本的控制、保障业务稳定性、提高运维效率; 2. 熟练使用Go/Java语言开发平台服务及底层Kubernetes组件能力; 3. 参与平台的高可用、性能优化、安全加固及自动化运维体系建设; 4. 基于AI技术,智能化解决容器层面的问题诊断、成本治理、告警降噪等问题; 5. 编写高质量、可维护的技术文档,推动团队技术沉淀与标准化。

更新于 2025-09-30杭州
logo of bytedance
社招A135284

1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务; 2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发; 3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。

更新于 2024-09-18深圳
logo of cainiao
社招3年以上技术类-开发

在菜鸟集团,我们致力于通过 AI 技术重塑软件研发与质量保障体系。 作为 AI 研发效能平台的核心成员,你将聚焦于利用 AI Agent 技术重构传统测试流程,打造智能化、自动化、自适应的新一代测试工具链。 你将参与构建基于大模型与智能体(Agent)的测试生成、执行、分析与修复闭环系统,让测试用例“自动生成”、缺陷“主动发现”、问题“自动定位”,真正实现“让测试更简单”。 你的工作将直接赋能菜鸟全球物流系统的高可靠、高效率交付,支撑亿级包裹背后的稳定体验。 我们提供: 1、探索 AI + 软件工程前沿交叉领域的绝佳机会; 2、支撑菜鸟全球物流核心系统的高影响力技术平台; 3、与顶尖 AI 工程师、SRE、研发效能专家协同作战的成长环境; 4、阿里巴巴集团生态内的技术资源与职业发展通道。

更新于 2025-11-25杭州
logo of dingtalk
校招钉钉2026届秋

我们是SRE,我们用代码守护钉钉的业务稳定性,用平台能力降本提效。 我们设计并开发端到端的解决方案,包括网站加速、持续交付、容量管理、弹性伸缩、监控快恢、流量调度、性能优化等。 我们希望你,喜欢折腾操作系统、命令行、各端新技术; 我们希望你,鄙视重复,鄙视救火式的解决问题,以自动化为荣,以建设和实现真正的AI运维为追求; 我们希望你能站在全站的的高度,借助最前沿的运维技术和理念,通过工具创新、升级架构和方法,努力提升全站的稳定性及运维可靠性; 我们希望你能够站在用户的角度,不断完善产品的用户体验,影响到我们亿万的用户和消费者,让他们受益; 你想尝试下将阿里巴巴都跑在云上的感觉吗?想亲眼见证吗?加入我们。

更新于 2025-10-16杭州