logo of xiaohongshu

小红书AI平台SRE研发工程师

社招全职3年以上运维开发地点:北京 | 上海 | 杭州状态:招聘

任职要求


任职要求:
计算机相关专业本科及以上学历,3年以上云平台或大规模分布式系统运维经验
扎实的Linux系统基础,熟悉常见问题诊断和性能优化方法
了解AI训练和推理的基础架构,熟悉GPU资源管理优先
精通DockerKubernetes等容器技术,有大规模集群运维经验
熟悉主流监控系统(如PrometheusGrafana)和日志系统(如ELK…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责AI平台基础设施的可靠性设计、监控告警、容量规划和性能优化
设计并实施平台的高可用性方案,制定灾备预案和故障响应机制
建立和完善AI平台的可观测性体系,包括日志、metrics、链路追踪等
负责自动化运维工具开发,提升平台运维效率和服务质量
分析和解决系统性能瓶颈,优化资源利用率
参与重大故障定位分析,制定改进方案并跟进落地
持续优化SLO指标,确保平台的稳定性和可靠性
包括英文材料
学历+
分布式系统+
Linux+
Docker+
Kubernetes+
Prometheus+
Grafana+
还有更多 •••
相关职位

logo of bytedance
社招A135284

1、承担AI私有化产品数据库及中间件的运维支持、性能优化、监控与故障诊断等任务; 2、负责AI私有化产品的容量规划、自动化部署、容灾演练,以及故障处理所需工具和系统的开发; 3、推进AI私有化产品的持续集成与交付,实现高效且自动化的运维优化,增强服务的稳定性并提升研发效率。

更新于 2024-09-18深圳
logo of aliyun
社招3年以上云智能集团

泰山平台是支撑云原生团队稳定和质量的技术风险平台,目前已经支持数十个地域、数千个集群、百万规模的规模容器运维。在智能测试、智能运维的领域有前沿探索,和多所国内知名学校有长期的项目合作,主导混沌工程领域的开源建设。 1、基于AI技术升级技术风险平台产品,包括不限于自动化测试生成、规模化容器运维、多模态告警降噪、容器根因诊断、韧性工程等领域,深度参与或主导AI框架与工程架构设计,并推动AI产品落地; 2、探索大模型与智能体技术在技术风险领域的创新应用,推动AI驱动的自动化技术风险能力升级,大幅提升测试、观测、应急等效能; 3、不断研究大模型新的前沿技术,攻克关键技术难题,促进安全AI技术发展; 4、结合AI行业发展趋势,制定合适的技术发展规划,提升团队技术视野和技术影响力。

更新于 2026-01-09杭州
logo of aliyun
社招4年以上云智能集团

泰山平台是支撑云原生团队稳定和质量的技术风险平台,目前已经支持数十个地域、数千个集群、百万规模的规模容器运维。在智能测试、智能运维的领域有前沿探索,和多所国内知名学校有长期的项目合作,主导混沌工程领域的开源建设。 1、基于AI技术升级技术风险平台产品,包括不限于自动化测试生成、规模化容器运维、多模态告警降噪、容器根因诊断、韧性工程等领域,深度参与或主导AI框架与工程架构设计,并推动AI产品落地。 2、探索大模型与智能体技术在技术风险领域的创新应用,推动AI驱动的自动化技术风险能力升级,大幅提升测试、观测、应急等效能。 3、不断研究大模型最新前沿技术,攻克关键技术难题,促进安全AI技术发展。 4、结合AI行业发展趋势,制定合适的技术发展规划,提升团队技术视野和技术影响力。

更新于 2026-01-05杭州
logo of aliyun
社招3年以上云智能集团

泰山平台是支撑云原生团队稳定和质量的技术风险平台,目前已经支持数十个地域、数千个集群、百万规模的规模容器运维。在智能测试、智能运维的领域有前沿探索,和多所国内知名学校有长期的项目合作,主导混沌工程领域的开源建设。 1、基于AI技术升级技术风险平台产品,包括不限于自动化测试生成、规模化容器运维、多模态告警降噪、容器根因诊断、韧性工程等领域,深度参与或主导AI框架与工程架构设计,并推动AI产品落地; 2、探索大模型与智能体技术在技术风险领域的创新应用,推动AI驱动的自动化技术风险能力升级,大幅提升测试、观测、应急等效能; 3、不断研究大模型的新的前沿技术,攻克关键技术难题,促进安全AI技术发展; 4、结合AI行业发展趋势,制定合适的技术发展规划,提升团队技术视野和技术影响力。

更新于 2026-01-09杭州