米哈游应用运维开发工程师（日志方向）

社招全职3年以上程序&技术类地点：上海状态：招聘

扫码手机上打开

任职要求

任职要求
  必备条件
  - 计算机、软件工程等相关专业本科及以上学历，3年以上运维开发或日志/可观测性平台相关工作经验
  - 精通至少一门编程语言（Go / Python 优先），具备良好的工程化开发能力
  - 精通主流日志技术栈，有日均 TB 级以上日志平台的建设与运维经验，熟悉完整的日志生命周期：采集 → 缓冲 → 处理 → 存储 → 检索 → 分析 → 归档
  - 精通日志存储引擎：熟练掌握以下至少两种引擎的架构原理、部署调优与运维：
    - Elasticsearch / OpenSearch：索引设计、分片策略、ILM 生命周期管理、查询调优、集群扩缩容
    - ClickHouse：表引擎选型（MergeTree 系列）、分区策略、物化视图、分布式查询优化
    - Loki/VictoraMerics：标签设计最佳实践、Chunk 存储优化、LogQL 高级查询、大规模部署模式（微服务模式）
 …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

岗位职责
  1. 统一日志平台建设：负责设计并落地覆盖全业务线的企业级统一日志平台，承接集群基础设施日志、Kubernetes 组件日志、应用业务日志、AI 训练/推理任务日志的全量采集、传输、存储、检索与分析
  2. 平台架构演进：根据业务增长持续优化日志平台架构，确保在日均 TB 级～PB 级 日志量下的高吞吐、低延迟与高可用，设计合理的多级存储（热/温/冷）与生命周期管理策略
  3. 审计日志：设计并落地 K8s Audit Log 采集与分析方案，实现 API 调用行为审计、异常操作检测
  4. 多租户与权限隔离：实现基于业务线/项目维度的日志隔离与权限管控，支撑多团队自助查询
  5. 开发符合业务需求的日志查询、展示、脱敏、归因、告警等功能

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Go+

Python+

ElasticSearch+

ClickHouse+

微服务+

消息队列+

还有更多 •••

登录查看完整学习资料

相关职位

资深可观测工程师（aiops）

社招3年以上信息技术类

1、参与设计和开发AIOps解决方案，帮助实现希音运维的智能化。 2、参与公司容量资源规划：运用机器学习和数据分析技术，预测容量变化、监控和分析系统性能、识别潜在问题，并提供可解释的解决方案，以提高资源利用率，提前发现容量瓶颈。 3、打通故障从告警发现、故障定位、故障恢复的全链路，借助于机器学习、深度学习、大模型等相关技术，帮助进行故障的异常检测、告警降噪、根因定位、预案的决策等，进而提升故障恢复效率。

更新于 2024-07-12南京|上海

AI for System研究员/工程师

社招TEG技术

1.研发AI驱动的智能运维系统（AIOps），基于机器学习/深度学习实现故障预测、异常检测与根因分析； 2.构建系统资源优化模型，通过AI技术进行性能与资源优化、复杂问题建模与决策与系统自治； 3.探索大模型在数据以及AI系统基础设置以及运维体系的智能化升级，如自动优化、自动化决策； 4.推动AI for System技术落地，持续跟踪领域内前沿算法与工程实践。

更新于 2025-05-20北京

专家工程师-稳定性(J250605024)

社招5年以上技术

我们是滴滴网约车技术-稳定性团队，负责网约车公司整体服务稳定性、服务器成本，包含稳定性BP、工具框架、服务器成本三个方向，负责网约车、花小猪整体服务稳定性保障，以及服务器成本优化工作。建设稳定性技术体系，打造高可用系统。为业务又快又稳地发展提供保障。实现企业效益最大化。加入我们，共同打造出行领域坚不可摧的稳定性基石！岗位职责 1、业务稳定性保障：深入理解核心业务流程（分单、交易、履约等），主动识别潜在稳定性风险，推动架构优化与流程改造。 2、高可用架构设计：规划并落地业务侧多活/异地多中心容灾架构，设计流量控制、降级熔断等稳定性保障方案。 3、风险感知与预防：建设智能监控与风控体系，实现对业务与系统风险的提前感知与自动化干预。 4、故障治理与应急：主导故障演练，优化应急响应机制，快速止损恢复；协助并推动重大故障复盘与根因闭环。 5、稳定性指标与体系建设：建立并完善业务与系统维度的稳定性指标与监控体系，推动数据驱动的稳定性改进。 6、文化与赋能：推广稳定性工程规范，赋能业务与研发团队，将稳定性文化融入日常开发与运营。 7、跨团队协作：与研发、架构、运维、业务团队紧密合作，确保稳定性目标在全链路高效实现。

更新于 2025-09-10北京

资深测试开发工程师-AI方向

社招3年以上A126396

1、负责AI技术深度应用软件测试或者系统稳定性测试，包括性能测试、压力测试、容灾演练等； 2、AI驱动的测试全流程优化，运用AI技术重构测试需求分析、用例设计、自动化、执行监控、缺陷预测及结果分析等环节，开发基于AI的自动化测试框架与工具，实现测试脚本智能生成、测试用例自适应推荐、异常场景自动挖掘等能力，探索大语言模型（LLM）在测试领域的应用，例如需求解析、测试数据生成、日志分析等场景； 3、自动化测试体系构建，设计并落地高可用、可扩展的自动化测试框架，整合AI能力提升测试覆盖率和执行效率，主导复杂系统的自动化测试策略，解决稳定性、数据构造等难点问题； 4、稳定性保障，负责系统稳定性测试，包括性能测试、压力测试、容灾演练等，确保系统在高并发、异常场景下的稳定性，设计并实施稳定性测试方案，识别系统瓶颈和潜在风险，推动研发团队优化系统架构，监控生产环境稳定性，分析故障根因，制定并落地改进措施； 5、技术探索与创新，跟踪AI测试领域前沿技术（如AI模糊测试、智能监控、自动化修复），推动技术预研与落地，通过数据建模与分析，构建测试质量评估体系，量化AI提效成果并持续优化； 6、团队赋能与协作，与研发、运维、产品等团队紧密合作，推动质量保障工作的落地和优化，沉淀AI测试方法论，通过技术分享、工具推广提升团队整体技术水平。

更新于 2025-02-28北京