米哈游资深云原生运维开发工程师
任职要求
任职要求 必备条件 - 计算机、软件工程等相关专业本科及以上学历,5年以上运维开发或基础设施相关工作经验 - 精通 Kubernetes,深入理解其架构原理(调度、网络、存储、安全模型),具备大规模集群(1000+ 节点)管理经验 - 精通至少一门编程语言(Go 优先,Python/Rust 亦可),具备良好的工程能力与代码质量意识 - 熟练掌握 Docker 容器技术,理解 OCI 标准、镜像构建优化、容器运行时(containerd/CRI-O) - 熟悉主流公有云平台(AWS / 阿里云 / 腾讯云)至少一种,了解其核心服务(VPC、ECS/…
工作职责
岗位职责 - 负责大规模 Kubernetes 集群管理、架构设计、部署、运维及持续优化,保障 99.99% 可用性 - 集群性能调优:针对大规模场景进行 etcd 性能优化、API Server 高可用保障、调度器性能调优、大规模Service/Endpoint 治理,解决规模化瓶颈 - 多集群与联邦管理:设计并落地多集群管理方案,实现跨集群调度、流量治理与统一管控 - 集群插件开发:不限于CNI、CSI、Device Plugin、Scheduler Plugin等 - 训推平台:训练、推理平台的功能特性开发与优化 - 安全与合规:设计网关权限、审计日志、网络策略、RBAC 权限管理等 - 故障响应:参与线上故障排查与应急响应,推动故障复盘及改进措施落地
字节跳动基础架构 SRE 团队负责支持公司各项业务的正常运转,包括处理紧急故障响应、保障业务连续性、产品可用性改进、性能&效率优化、变更管理、监控、容量规划、运维产品开发与管理等相关工作。SRE 前端团队与 SRE 业务团队密切配合,负责搭建基础架构SRE 统一的运维管理平台,以建设通用能力的方式支持各产品(技术组件)搭建理念一致、功能易用的运维分站,实现不同业务场景下的运维闭环。 1、参与应用开发管理、流程引擎、逻辑编排、UI 编排等方向的技术架构和研发; 2、负责搭建物料库、制定各类研发规范,构建统一、高效的前端研发流程; 3、参与公司运维工作的白屏化,自动化和智能化实践,为公司内部提供拥有极致体验的运维产品; 4、深度参与面向未来的下一代基础架构,构建云原生运维产品,为多种业务场景赋能。

1. 负责devops体系设计和主导建设,关注业内devops体系发展,结合业务和运维的当前现状制定合适的演进路线。 2. 负责devops系统的整体架构设计、产品形态定义、核心代码逻辑的编写,引进行业内和社区效能相关的先进工具及技术等。 3. 和业务开发、运维保持良好沟通,密切配合,进行相关的工具链、流程及平台等的建设,并帮助推进运维规范化流程和制度,并通过系统研发落地。 4. 提升团队整体的自动化水平,创建高效的开发人员体验并减少人工干预,涵盖CI/CD,配置管理和数据上线。
1、数据资产管理平台开发与治理 构建企业级数据资产管理平台,构建数据清晰的血缘,支持高效溯源。 建立元数据管理、数据血缘追踪、质量监控与安全合规体系。 2、知识图谱构建与优化 从结构化/非结构化数据中提取实体与关系,构建行业知识图谱(如客户关系图谱)。 通过规则引擎、NLP模型持续优化图谱质量。 3、AI助理系统开发 集成大语言模型(LLM)与垂直知识库,开发智能问答、自然语言查询及自动化报表功能。 设计API/Web接口,支持业务用户通过自然语言调用数据服务(如“查询某产品的销售趋势”)。 搭建模型训练与部署框架,实现AI能力快速迭代。 4、数据安全合规与质量管理 建立数据质量指标(完整性、一致性、准确性),开发自动化检测与修复工具。 实现异常数据实时告警(如延迟、权限越权),并通过邮件/SMS/企业微信通知责任人。 5、平台性能与稳定性保障 优化Spark/Flink任务性能,提升高并发场景下的平台稳定性。 监控系统运行状态,设计容灾机制与自动化运维工具,降低故障率。