米哈游应用运维开发工程师(日志方向)
任职要求
任职要求 必备条件 - 计算机、软件工程等相关专业本科及以上学历,3年以上运维开发或日志/可观测性平台相关工作经验 - 精通至少一门编程语言(Go / Python 优先),具备良好的工程化开发能力 - 精通主流日志技术栈,有日均 TB 级以上日志平台的建设与运维经验,熟悉完整的日志生命周期:采集 → 缓冲 → 处理 → 存储 → 检索 → 分析 → 归档 - 精通日志存储引擎:熟练掌握以下至少两种引擎的架构原理、部署调优与运维: - Elasticsearch / OpenSearch:索引设计、分片策略、ILM 生命周期管理、查询调优、集群扩缩容 - ClickHouse:表引擎选型(MergeTree 系列)、分区策略、物化视图、分布式查询优化 - Loki/VictoraMerics:标签设计最佳实践、Chunk 存储优化、LogQL 高级查询、大规模部署模式(微服务模式) …
工作职责
岗位职责 1. 统一日志平台建设:负责设计并落地覆盖全业务线的企业级统一日志平台,承接集群基础设施日志、Kubernetes 组件日志、应用业务日志、AI 训练/推理任务日志的全量采集、传输、存储、检索与分析 2. 平台架构演进:根据业务增长持续优化日志平台架构,确保在日均 TB 级~PB 级 日志量下的高吞吐、低延迟与高可用,设计合理的多级存储(热/温/冷)与生命周期管理策略 3. 审计日志:设计并落地 K8s Audit Log 采集与分析方案,实现 API 调用行为审计、异常操作检测 4. 多租户与权限隔离:实现基于业务线/项目维度的日志隔离与权限管控,支撑多团队自助查询 5. 开发符合业务需求的日志查询、展示、脱敏、归因、告警等功能
1、参与设计和开发AIOps解决方案,帮助实现希音运维的智能化。 2、参与公司容量资源规划:运用机器学习和数据分析技术,预测容量变化、监控和分析系统性能、识别潜在问题,并提供可解释的解决方案,以提高资源利用率,提前发现容量瓶颈。 3、打通故障从告警发现、故障定位、故障恢复的全链路,借助于机器学习、深度学习、大模型等相关技术,帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等,进而提升故障恢复效率。
1.研发AI驱动的智能运维系统(AIOps),基于机器学习/深度学习实现故障预测、异常检测与根因分析; 2.构建系统资源优化模型,通过AI技术进行性能与资源优化、复杂问题建模与决策与系统自治; 3.探索大模型在数据以及AI系统基础设置以及运维体系的智能化升级,如自动优化、自动化决策; 4.推动AI for System技术落地,持续跟踪领域内前沿算法与工程实践。
我们是滴滴网约车技术-稳定性团队,负责网约车公司整体服务稳定性、服务器成本,包含稳定性BP、工具框架、服务器成本三个方向,负责网约车、花小猪整体服务稳定性保障,以及服务器成本优化工作。建设稳定性技术体系,打造高可用系统。为业务又快又稳地发展提供保障。实现企业效益最大化。加入我们,共同打造出行领域坚不可摧的稳定性基石! 岗位职责 1、业务稳定性保障:深入理解核心业务流程(分单、交易、履约等),主动识别潜在稳定性风险,推动架构优化与流程改造。 2、高可用架构设计:规划并落地业务侧多活/异地多中心容灾架构,设计流量控制、降级熔断等稳定性保障方案。 3、风险感知与预防:建设智能监控与风控体系,实现对业务与系统风险的提前感知与自动化干预。 4、故障治理与应急:主导故障演练,优化应急响应机制,快速止损恢复;协助并推动重大故障复盘与根因闭环。 5、稳定性指标与体系建设:建立并完善业务与系统维度的稳定性指标与监控体系,推动数据驱动的稳定性改进。 6、文化与赋能:推广稳定性工程规范,赋能业务与研发团队,将稳定性文化融入日常开发与运营。 7、跨团队协作:与研发、架构、运维、业务团队紧密合作,确保稳定性目标在全链路高效实现。
1、负责AI技术深度应用软件测试或者系统稳定性测试,包括性能测试、压力测试、容灾演练等; 2、AI驱动的测试全流程优化,运用AI技术重构测试需求分析、用例设计、自动化、执行监控、缺陷预测及结果分析等环节,开发基于AI的自动化测试框架与工具,实现测试脚本智能生成、测试用例自适应推荐、异常场景自动挖掘等能力,探索大语言模型(LLM)在测试领域的应用,例如需求解析、测试数据生成、日志分析等场景; 3、自动化测试体系构建,设计并落地高可用、可扩展的自动化测试框架,整合AI能力提升测试覆盖率和执行效率,主导复杂系统的自动化测试策略,解决稳定性、数据构造等难点问题; 4、稳定性保障,负责系统稳定性测试,包括性能测试、压力测试、容灾演练等,确保系统在高并发、异常场景下的稳定性,设计并实施稳定性测试方案,识别系统瓶颈和潜在风险,推动研发团队优化系统架构,监控生产环境稳定性,分析故障根因,制定并落地改进措施; 5、技术探索与创新,跟踪AI测试领域前沿技术(如AI模糊测试、智能监控、自动化修复),推动技术预研与落地,通过数据建模与分析,构建测试质量评估体系,量化AI提效成果并持续优化; 6、团队赋能与协作,与研发、运维、产品等团队紧密合作,推动质量保障工作的落地和优化,沉淀AI测试方法论,通过技术分享、工具推广提升团队整体技术水平。