logo of mihoyo

米哈游资深云原生运维开发工程师

社招全职5年以上程序&技术类地点:上海状态:招聘

任职要求


任职要求
  必备条件
  - 计算机、软件工程等相关专业本科及以上学历,5年以上运维开发或基础设施相关工作经验
  - 精通 Kubernetes,深入理解其架构原理(调度、网络、存储、安全模型),具备大规模集群(1000+ 节点)管理经验
  - 精通至少一门编程语言(Go 优先,Python/Rust 亦可),具备良好的工程能力与代码质量意识
  - 熟练掌握 Docker 容器技术,理解 OCI 标准、镜像构建优化、容器运行时(containerd/CRI-O)
  - 熟悉主流公有云平台(AWS / 阿里云 / 腾讯云)至少一种,了解其核心服务(VPC、ECS/…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位职责
- 负责大规模 Kubernetes 集群管理、架构设计、部署、运维及持续优化,保障 99.99% 可用性
- 集群性能调优:针对大规模场景进行 etcd 性能优化、API Server 高可用保障、调度器性能调优、大规模Service/Endpoint 治理,解决规模化瓶颈
- 多集群与联邦管理:设计并落地多集群管理方案,实现跨集群调度、流量治理与统一管控
- 集群插件开发:不限于CNI、CSI、Device Plugin、Scheduler Plugin等
- 训推平台:训练、推理平台的功能特性开发与优化
- 安全与合规:设计网关权限、审计日志、网络策略、RBAC 权限管理等
- 故障响应:参与线上故障排查与应急响应,推动故障复盘及改进措施落地
包括英文材料
学历+
Kubernetes+
Go+
Python+
Rust+
Docker+
containerd+
CRI-O+
AWS+
还有更多 •••
相关职位

logo of bytedance
社招MP32

字节跳动基础架构 SRE 团队负责支持公司各项业务的正常运转,包括处理紧急故障响应、保障业务连续性、产品可用性改进、性能&效率优化、变更管理、监控、容量规划、运维产品开发与管理等相关工作。SRE 前端团队与 SRE 业务团队密切配合,负责搭建基础架构SRE 统一的运维管理平台,以建设通用能力的方式支持各产品(技术组件)搭建理念一致、功能易用的运维分站,实现不同业务场景下的运维闭环。 1、参与应用开发管理、流程引擎、逻辑编排、UI 编排等方向的技术架构和研发; 2、负责搭建物料库、制定各类研发规范,构建统一、高效的前端研发流程; 3、参与公司运维工作的白屏化,自动化和智能化实践,为公司内部提供拥有极致体验的运维产品; 4、深度参与面向未来的下一代基础架构,构建云原生运维产品,为多种业务场景赋能。

更新于 2021-08-23北京
logo of papergames
社招5年以上平台类

1. 负责devops体系设计和主导建设,关注业内devops体系发展,结合业务和运维的当前现状制定合适的演进路线。 2. 负责devops系统的整体架构设计、产品形态定义、核心代码逻辑的编写,引进行业内和社区效能相关的先进工具及技术等。 3. 和业务开发、运维保持良好沟通,密切配合,进行相关的工具链、流程及平台等的建设,并帮助推进运维规范化流程和制度,并通过系统研发落地。 4. 提升团队整体的自动化水平,创建高效的开发人员体验并减少人工干预,涵盖CI/CD,配置管理和数据上线。

更新于 2025-05-16上海
logo of aliyun
社招诚云科技

1、数据资产管理平台开发与治理 构建企业级数据资产管理平台,构建数据清晰的血缘,支持高效溯源。 建立元数据管理、数据血缘追踪、质量监控与安全合规体系。 2、知识图谱构建与优化 从结构化/非结构化数据中提取实体与关系,构建行业知识图谱(如客户关系图谱)。 通过规则引擎、NLP模型持续优化图谱质量。 3、AI助理系统开发 集成大语言模型(LLM)与垂直知识库,开发智能问答、自然语言查询及自动化报表功能。 设计API/Web接口,支持业务用户通过自然语言调用数据服务(如“查询某产品的销售趋势”)。 搭建模型训练与部署框架,实现AI能力快速迭代。 4、数据安全合规与质量管理 建立数据质量指标(完整性、一致性、准确性),开发自动化检测与修复工具。 实现异常数据实时告警(如延迟、权限越权),并通过邮件/SMS/企业微信通知责任人。 5、平台性能与稳定性保障 优化Spark/Flink任务性能,提升高并发场景下的平台稳定性。 监控系统运行状态,设计容灾机制与自动化运维工具,降低故障率。

更新于 2025-05-28杭州
logo of aliyun
社招3年以上诚云科技

1、稳定性保障与体系建设:负责大模型相关核心业务系统的稳定性建设工作,提升业务可用性与可靠性。 2、高并发流量治理:高并发场景下的流量治理方案设计与实施,包括熔断、限流、降级等容灾策略,确保业务弹性与鲁棒性。 3、运维流程优化和自动化:推动运维自动化与平台化建设,提升研发效率。 4、架构高可用建设:业务系统稳定性架构方案的设计与实施,推动高可用架构落地,规避系统性风险。 5、应急响应:负责快速定位并解决生产环境故障,建立故障快速恢复机制,推动长效改进措施落地。

更新于 2025-11-24北京|杭州