米哈游应用运维开发工程师(日志方向)
任职要求
任职要求 必备条件 - 计算机、软件工程等相关专业本科及以上学历,3年以上运维开发或日志/可观测性平台相关工作经验 - 精通至少一门编程语言(Go / Python 优先),具备良好的工程化开发能力 - 精通主流日志技术栈,有日均 TB 级以上日志平台的建设与运维经验,熟悉完整的日志生命周期:采集 → 缓冲 → 处理 → 存储 → 检索 → 分析 → 归档 - 精通日志存储引擎:熟练掌握以下至少两种引擎的架构原理、部署调优与运维: - Elasticsearch / OpenSearch:索引设计、分片策略、ILM 生命周期管理、查询调优、集群扩缩容 - ClickHouse:表引擎选型(MergeTree 系列)、分区策略、物化视图、分布式查询优化 - Loki/VictoraMerics:标签设计最佳实践、Chunk 存储优化、LogQL 高级查询、大规模部署模式(微服务模式) …
工作职责
岗位职责 1. 统一日志平台建设:负责设计并落地覆盖全业务线的企业级统一日志平台,承接集群基础设施日志、Kubernetes 组件日志、应用业务日志、AI 训练/推理任务日志的全量采集、传输、存储、检索与分析 2. 平台架构演进:根据业务增长持续优化日志平台架构,确保在日均 TB 级~PB 级 日志量下的高吞吐、低延迟与高可用,设计合理的多级存储(热/温/冷)与生命周期管理策略 3. 审计日志:设计并落地 K8s Audit Log 采集与分析方案,实现 API 调用行为审计、异常操作检测 4. 多租户与权限隔离:实现基于业务线/项目维度的日志隔离与权限管控,支撑多团队自助查询 5. 开发符合业务需求的日志查询、展示、脱敏、归因、告警等功能
岗位职责 - 统一身份认证体系:设计并落地覆盖全基础设施的统一身份认证平台,打通 Kubernetes 集群、自研平台、开源产品、云产品等全栈组件的身份体系 - 身份源管理:对接企业 LDAP、SSO、云产品等多个身份源,实现用户、组织架构、用户组的自动同步与生命周期管理 - 身份认证中间件开发:开发认证 SDK / Sidecar / 网关插件,为内部平台提供标准化的身份认证接入能力,降低各系统重复对接成本 - 权限管理:为 AI训推平台设计多租户权限和API接入权限方案,包括不限于资源配额、数据集、任务参数、模型产物、API Key、审计日志等 - 权限平台:构建权限自助申请 → 审批 → 生效 → 回收的全流程工单平台,集成企业 IM 审批流,实现权限变更可审计、可追溯 - 权限巡检与治理:开发自动化权限巡检工具,定期检测并输出僵尸账号、高危账号等
作为云原生CI/CD方向高级工程师/专家,您将深度参与公司级CI/CD平台的设计、构建、优化和推广。您需要运用您在CI/CD领域的多年经验和对云原生技术的深刻理解,结合平台工程的理念,打造自动化、智能化、自助化的研发交付流水线和开发者平台,赋能业务快速迭代和创新。 主要职责: 1. CI/CD平台建设与优化: - 负责设计、开发、部署和维护公司级CI/CD平台及相关工具链(如Jenkins, GitLab CI, Argo CD, Tekton, Spinnaker等)。 - 持续优化CI/CD流程,提升构建、测试、部署的自动化水平、速度和稳定性。 - 集成代码质量扫描、安全扫描、自动化测试等工具,确保交付质量。 2. 云原生技术实践与推广: - 将云原生理念(如微服务、容器化、不可变基础设施、声明式API)融入CI/CD流程和平台设计。 - 深入研究和应用Kubernetes、Docker、Service Mesh、Serverless等云原生技术,提升资源利用率和系统弹性。 - 推动云原生最佳实践在研发团队中的落地。 3. 平台工程理念落地: - 基于平台工程理念,设计和构建内部开发者平台(IDP),提供标准化的开发、测试、部署环境和工具。 - 为开发者提供自助服务能力,降低认知负荷,提升开发者体验(Developer Experience)。 - 抽象通用能力,构建可复用的组件和模板,赋能不同业务线的快速接入和使用。 4. 技术攻坚与创新: - 解决CI/CD及云原生平台在实施和运维过程中遇到的复杂技术难题。 - 跟踪业界CI/CD、DevOps及云原生领域的最新技术和发展趋势,引入创新方案,持续提升平台能力。 - 参与制定CI/CD和云原生相关的技术规范、标准和SOP。 5. 知识沉淀与分享: - 撰写技术文档,沉淀最佳实践,进行内部技术培训和分享,提升团队整体技术水平。 - 指导和帮助团队其他成员解决技术问题。
1. 负责互联网基础架构(大数据、运维、安全等)相关效能平台的设计和开发工作,面向AI原生时代的基建效能平台开发,通过大模型技术重构传统运维、数据、安全体系,打造具备自进化能力的智能基础设施中台; 2. 智能平台开发:基于大模型开发AIOps工具,实现日志分析/故障预测自动化;构建Prompt工程框架,优化LLM在运维场景的落地效率; 3. DataOps体系建设:搭建自动化数据流水线,集成质量监控与版本控制功能;开发DataAgent实现自然语言交互式数据查询; 4. 安全架构优化:设计AI驱动的威胁感知系统,实现攻击模式预测;开发敏感数据自动识别与合规审计工具; 5. 云原生运维:优化K8s资源调度算法与智能扩缩容策略。
1. 负责互联网基础架构(大数据、运维、安全等)相关效能平台的设计和开发工作,面向AI原生时代的基建效能平台开发,通过大模型技术重构传统运维、数据、安全体系,打造具备自进化能力的智能基础设施中台; 2. 智能平台开发:基于大模型开发AIOps工具,实现日志分析/故障预测自动化;构建Prompt工程框架,优化LLM在运维场景的落地效率; 3. DataOps体系建设:搭建自动化数据流水线,集成质量监控与版本控制功能;开发DataAgent实现自然语言交互式数据查询; 4. 安全架构优化:设计AI驱动的威胁感知系统,实现攻击模式预测;开发敏感数据自动识别与合规审计工具; 5. 云原生运维:优化K8s资源调度算法与智能扩缩容策略。