滴滴专家工程师-稳定性(J250605024)
任职要求
任职要求 1、本科及以上学历,5年以上互联网领域高并发、高可用系统架构或稳定性保障经验。 2、具备出行、电商、物流等复杂业务领域经验者优先,对业务流程有深入理解。 3、熟悉高并发系统架构原理,并有实际应用经验(如分布式、微服务、消息队列、缓存等)。 4、具备容量评估、流量控制、降级熔断等稳定性保障手段的设计与实施经验。 5、有监控、日志、链路追踪等可观测性技术实践经…
工作职责
我们是滴滴网约车技术-稳定性团队,负责网约车公司整体服务稳定性、服务器成本,包含稳定性BP、工具框架、服务器成本三个方向,负责网约车、花小猪整体服务稳定性保障,以及服务器成本优化工作。建设稳定性技术体系,打造高可用系统。为业务又快又稳地发展提供保障。实现企业效益最大化。加入我们,共同打造出行领域坚不可摧的稳定性基石! 岗位职责 1、业务稳定性保障:深入理解核心业务流程(分单、交易、履约等),主动识别潜在稳定性风险,推动架构优化与流程改造。 2、高可用架构设计:规划并落地业务侧多活/异地多中心容灾架构,设计流量控制、降级熔断等稳定性保障方案。 3、风险感知与预防:建设智能监控与风控体系,实现对业务与系统风险的提前感知与自动化干预。 4、故障治理与应急:主导故障演练,优化应急响应机制,快速止损恢复;协助并推动重大故障复盘与根因闭环。 5、稳定性指标与体系建设:建立并完善业务与系统维度的稳定性指标与监控体系,推动数据驱动的稳定性改进。 6、文化与赋能:推广稳定性工程规范,赋能业务与研发团队,将稳定性文化融入日常开发与运营。 7、跨团队协作:与研发、架构、运维、业务团队紧密合作,确保稳定性目标在全链路高效实现。
1、负责客服C端(H5、Android、iOS)的需求迭代,对产品细节有追求,持续打磨文本、语音等聊天式交互体验。 2、深度参与基于LLM的Agent构建系统搭建,充分发挥模型能力。 3、提升页面性能,合理选型和设计,降低系统维护成本,保障稳定性和代码质量。
1. 参与国际化外卖核心交易链路的稳定性建设,深入分析业务设计与实现,评估技术方案的合理性与可行性。 2. 识别系统瓶颈与风险点,推动性能优化与可用性提升,确保代码质量与服务稳定性。 3. 引入创新技术与解决方案,以创新思维解决业务难题,提升系统效率。 4. 负责外卖核心系统的架构优化与性能调优,保障系统高可用性。 5. 推动平台稳定性方案在业务侧的落地,挖掘系统风险点及研发痛点,协助解决相关问题。
1. 稳定性体系规划与落地(质量侧): 负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。 从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。 2. 红蓝对抗与全链路演练(质量侧): 主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。 协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。 3. 变更风险管控: 建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。 建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。 4. 线上巡检与业务核对(BCP): 建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。 补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。
职位描述: 构建稳定、高效的智能运营引擎,通过智能运营平台,提供一站式经营决策能力,通过运筹优化,机器学习方式不断提升公司的商业目标达成能力,实现品类、分框分城、场景化、时空下的运营(资源规划、供需预测&诊断、资源分配、策略能力下发),建设一站式精细化运营&分析平台。在这里,可以学习了解到收益管理在经营的实践、商业目标的拆解与执行流程、业务产品技术高效协作模式。 岗位职责 1、基于对业务理解,进行业务流程的抽象,底层策略能力的封装,通过编排配置,提升业务的接入效率和扩展性,优化数据模型,提升策略计算性能,从而提升交互响应体验。 2、构建(离/在线)策略架构,通过对策略流程抽象封装,帮助算法脱离繁琐的工程化开发,聚焦策略迭代本身→提升策略迭代效率,提供实验,模型特征、策略优化快速试错能力。 3、优化稳定性体系,提升系统可用性、可靠性,降低资损风险,保证千万级订单定价,亿级补贴正常运转。