滴滴专家工程师-稳定性(J250605024)

社招全职5年以上技术2025-09-10地点：北京状态：招聘

扫码手机上打开

任职要求

任职要求
1、本科及以上学历，5年以上互联网领域高并发、高可用系统架构或稳定性保障经验。
2、具备出行、电商、物流等复杂业务领域经验者优先，对业务流程有深入理解。
3、熟悉高并发系统架构原理，并有实际应用经验（如分布式、微服务、消息队列、缓存等）。
4、具备容量评估、流量控制、降级熔断等稳定性保障手段的设计与实施经验。
5、有监控、日志、链路追踪等可观测性技术实践经…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们是滴滴网约车技术-稳定性团队，负责网约车公司整体服务稳定性、服务器成本，包含稳定性BP、工具框架、服务器成本三个方向，负责网约车、花小猪整体服务稳定性保障，以及服务器成本优化工作。建设稳定性技术体系，打造高可用系统。为业务又快又稳地发展提供保障。实现企业效益最大化。加入我们，共同打造出行领域坚不可摧的稳定性基石！
岗位职责
1、业务稳定性保障：深入理解核心业务流程（分单、交易、履约等），主动识别潜在稳定性风险，推动架构优化与流程改造。
2、高可用架构设计：规划并落地业务侧多活/异地多中心容灾架构，设计流量控制、降级熔断等稳定性保障方案。
3、风险感知与预防：建设智能监控与风控体系，实现对业务与系统风险的提前感知与自动化干预。
4、故障治理与应急：主导故障演练，优化应急响应机制，快速止损恢复；协助并推动重大故障复盘与根因闭环。
5、稳定性指标与体系建设：建立并完善业务与系统维度的稳定性指标与监控体系，推动数据驱动的稳定性改进。
6、文化与赋能：推广稳定性工程规范，赋能业务与研发团队，将稳定性文化融入日常开发与运营。
7、跨团队协作：与研发、架构、运维、业务团队紧密合作，确保稳定性目标在全链路高效实现。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

高并发+

高可用+

还有更多 •••

登录查看完整学习资料

相关职位

专家工程师(J250606020)

社招5-10年技术

1、负责客服C端（H5、Android、iOS）的需求迭代，对产品细节有追求，持续打磨文本、语音等聊天式交互体验。 2、深度参与基于LLM的Agent构建系统搭建，充分发挥模型能力。 3、提升页面性能，合理选型和设计，降低系统维护成本，保障稳定性和代码质量。

更新于 2025-07-24北京

专家工程师-稳定性(J250708016)

社招5年以上技术

1. 参与国际化外卖核心交易链路的稳定性建设，深入分析业务设计与实现，评估技术方案的合理性与可行性。 2. 识别系统瓶颈与风险点，推动性能优化与可用性提升，确保代码质量与服务稳定性。 3. 引入创新技术与解决方案，以创新思维解决业务难题，提升系统效率。 4. 负责外卖核心系统的架构优化与性能调优，保障系统高可用性。 5. 推动平台稳定性方案在业务侧的落地，挖掘系统风险点及研发痛点，协助解决相关问题。

更新于 2025-11-24北京

技术专家/后端研发工程师（稳定性）-TikTok直播

社招A58509

团队介绍：TikTok是一个覆盖150个国家和地区的国际短视频平台，我们希望通过TikTok发现真实、有趣的瞬间，让生活更美好。TikTok 在全球各地设有办公室，全球总部位于洛杉矶和新加坡，办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队，旨在实现TikTok直播业务的研发工作，搭建及维护业界领先的产品。加入我们，你能接触到包括：社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景，支持产品在全球赛道上高速发展；也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战，保障业务持续高质量、高效率、且安全地为用户服务；同时还能为不同业务场景提供全面的技术解决方案，优化各项产品指标及用户体验。在这里，有大牛带队与大家一同不断探索前沿，突破想象空间。在这里，你的每一行代码都将服务亿万用户。在这里，团队专业且纯粹，合作氛围平等且轻松。目前在北京，上海，杭州、广州、深圳分别开放多个岗位机会。 1、深入理解直播业务，优化和保障业务的稳定性； 2、海内外多机房建设，故障管理体系化，提合规区域运维效率； 3、提升研发质量，编程框架和语言性能优化，成本和预算优化； 4、研发合规和运维平台，提升海内外工程师的协作效率。

更新于 2024-01-24北京

应用运维专家工程师

社招3年以上计算机网络技术类

1、制定系统稳定性方案及度量体系，掌控系统可用性风险，针对各类隐患做好故障防范和应急方案，保障系统稳定性SLA达成； 2、推动重大稳定性治理项目，识别系统的风险/效能/成本问题，构建以稳定性为核心的工程技术平台，持续优化1-5-10应急响应机制（1分钟告警、5分钟定位、10分钟恢复）； 3、制定运维领域智能化规划，运用平台已有能力，对于团队工作问题提出针对性智能化解决方案，改进工作效率和质量； 4、关注行业动态和新技术发展，探索前沿AI技术在运维领域的创新应用，推动新技术在运维场景中的落地应用，升级运维体系。

更新于 2025-11-11深圳|上海