logo of didi

滴滴专家工程师-稳定性(J250605024)

社招全职5年以上技术地点:北京状态:招聘

任职要求


任职要求
1、本科及以上学历,5年以上互联网领域高并发高可用系统架构或稳定性保障经验。
2、具备出行、电商、物流等复杂业务领域经验者优先,对业务流程有深入理解。
3、熟悉高并发系统架构原理,并有实际应用经验(如分布式、微服务消息队列缓存等)。
4、具备容量评估、流量控制、降级熔断等稳定性保障手段的设计与实施经验。
5、有监控、日志、链路追踪等可观测性技术实践经验。
6、优秀的业务理解、技术抽象、沟通协调和团队协作能力。
7、积极主动,责任心强,具备良好的抗压能力。

我们提供
1、深入出行核心业务,参与关键系统稳定性建设的挑战性工作。
2、与优秀的稳定性技术专家和业务团队并肩作战,共同成长。
3、开放、协作、鼓励创新的团队文化。
如果您渴望成为业务的稳定性守护者,通过技术赋能业务实现更高的稳定性和韧性,我们期待您的加入!

工作职责


我们是滴滴网约车技术-稳定性团队,负责网约车公司整体服务稳定性、服务器成本,包含稳定性BP、工具框架、服务器成本三个方向,负责网约车、花小猪整体服务稳定性保障,以及服务器成本优化工作。建设稳定性技术体系,打造高可用系统。为业务又快又稳地发展提供保障。实现企业效益最大化。加入我们,共同打造出行领域坚不可摧的稳定性基石!
岗位职责
1、业务稳定性保障:深入理解核心业务流程(分单、交易、履约等),主动识别潜在稳定性风险,推动架构优化与流程改造。
2、高可用架构设计:规划并落地业务侧多活/异地多中心容灾架构,设计流量控制、降级熔断等稳定性保障方案。
3、风险感知与预防:建设智能监控与风控体系,实现对业务与系统风险的提前感知与自动化干预。
4、故障治理与应急:主导故障演练,优化应急响应机制,快速止损恢复;协助并推动重大故障复盘与根因闭环。
5、稳定性指标与体系建设:建立并完善业务与系统维度的稳定性指标与监控体系,推动数据驱动的稳定性改进。
6、文化与赋能:推广稳定性工程规范,赋能业务与研发团队,将稳定性文化融入日常开发与运营。
7、跨团队协作:与研发、架构、运维、业务团队紧密合作,确保稳定性目标在全链路高效实现。
包括英文材料
学历+
高并发+
高可用+
微服务+
消息队列+
缓存+
相关职位

logo of didi
社招5-10年技术

1、负责客服C端(H5、Android、iOS)的需求迭代,对产品细节有追求,持续打磨文本、语音等聊天式交互体验。 2、深度参与基于LLM的Agent构建系统搭建,充分发挥模型能力。 3、提升页面性能,合理选型和设计,降低系统维护成本,保障稳定性和代码质量。

更新于 2025-07-24
logo of didi
社招5年以上技术

1. 参与国际化外卖核心交易链路的稳定性建设,深入分析业务设计与实现,评估技术方案的合理性与可行性。 2. 识别系统瓶颈与风险点,推动性能优化与可用性提升,确保代码质量与服务稳定性。 3. 引入创新技术与解决方案,以创新思维解决业务难题,提升系统效率。 4. 负责外卖核心系统的架构优化与性能调优,保障系统高可用性。 5. 推动平台稳定性方案在业务侧的落地,挖掘系统风险点及研发痛点,协助解决相关问题。

更新于 2025-07-09
logo of bytedance
社招A58509

团队介绍:TikTok是一个覆盖150个国家和地区的国际短视频平台,我们希望通过TikTok发现真实、有趣的瞬间,让生活更美好。TikTok 在全球各地设有办公室,全球总部位于洛杉矶和新加坡,办公地点还包括纽约、伦敦、都柏林、巴黎、柏林、迪拜、雅加达、首尔和东京等多个城市。 TikTok直播研发团队,旨在实现TikTok直播业务的研发工作,搭建及维护业界领先的产品。 加入我们,你能接触到包括:社交互动、营收活动、主播生态、消费订阅、游戏直播、公会&运营平台等核心业务场景,支持产品在全球赛道上高速发展; 也能接触到包括服务架构、大模型算法、基础技术等方向上的技术挑战,保障业务持续高质量、高效率、且安全地为用户服务;同时还能为不同业务场景提供全面的技术解决方案,优化各项产品指标及用户体验。 在这里, 有大牛带队与大家一同不断探索前沿, 突破想象空间。 在这里,你的每一行代码都将服务亿万用户。 在这里,团队专业且纯粹,合作氛围平等且轻松。 目前在北京,上海,杭州、广州、深圳分别开放多个岗位机会。 1、深入理解直播业务,优化和保障业务的稳定性; 2、海内外多机房建设,故障管理体系化,提合规区域运维效率; 3、提升研发质量,编程框架和语言性能优化,成本和预算优化; 4、研发合规和运维平台,提升海内外工程师的协作效率。

更新于 2024-01-24
logo of pingantech
社招3年以上计算机网络技术类

1、制定系统稳定性方案及度量体系,掌控系统可用性风险,针对各类隐患做好故障防范和应急方案,保障系统稳定性SLA达成; 2、推动重大稳定性治理项目,识别系统的风险/效能/成本问题,构建以稳定性为核心的工程技术平台,持续优化1-5-10应急响应机制(1分钟告警、5分钟定位、10分钟恢复); 3、制定运维领域智能化规划,运用平台已有能力,对于团队工作问题提出针对性智能化解决方案,改进工作效率和质量; 4、关注行业动态和新技术发展,探索前沿AI技术在运维领域的创新应用,推动新技术在运维场景中的落地应用,升级运维体系。

更新于 2025-09-29