logo of didi

滴滴测试开发专家工程师(稳定性方向)(JR2026010700S)

社招全职5年以上技术状态:招聘

任职要求


1. 经验背景: 5年以上互联网大厂测试开发、SRE 或 技术风险管理经验。有大型分布式系统、高并发业务(如电商大促、支付交易)的稳定性保障经验者优先。
2. 技术栈: 深入理解 Java/Go 等主流后…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 稳定性体系规划与落地(质量侧):
负责业务线整体生产安全与稳定性保障体系的建设。作为质量侧代表,与 SRE、业务研发团队紧密协同,制定并落地高可用架构标准。
从业务视角出发,定义稳定性衡量标准(SLA/SLO),并推动技术团队达成稳定性指标(如降低故障率、缩短 MTTR)。

2. 红蓝对抗与全链路演练(质量侧):
主导或参与常态化的红蓝对抗演练。负责设计高复杂度的业务故障场景(蓝军视角/导演视角),验证系统的容灾能力和团队的应急响应能力。
协同 SRE 建设故障注入平台,推动“以演代战”,确保应急预案的有效性和自动化执行率。

3. 变更风险管控:
建立严格的变更管控机制(发布红线、灰度策略、回滚机制)。
建设“变更防御”能力,利用自动化手段拦截高风险代码和配置进入生产环境,治理因变更导致的稳定性问题。

4. 线上巡检与业务核对(BCP):
建设分钟级的业务一致性核对系统,确保在系统未报错但业务逻辑异常(如资金损失、数据不一致)时能快速发现。
补齐监控盲区:不仅关注系统监控(CPU/内存等),更要补齐业务监控盲区。
包括英文材料
相关职位

logo of baidu
社招ACG

-建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的百舸产品,支持AIGC、智算中心、金融、 -结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率 -在自研芯片上适配常见大模型,结合深度学习训推框架特性,开发或调优相关算子,提升模型在芯片上的性能和精度表现,辅助客户进行芯片选型和应用 -针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力

更新于 2025-05-15北京
logo of mi
社招5年以上A171108

主要工作:负责制动控制系统包括电控助力子系统、稳定性系统的控制器,(或EMB系统),及子系统之间交互的系统设计及应用工作; 需求定义:负责系统的需求定义工作,从制动大系统、性能要求、电子架构要求、主动安全要求等上层需求出发拆解系统-子系统-子零件的技术要求。包含机械要求(与硬件部门合作)、控制单元要求、功能要求、跨系统接口要求、诊断要求、功能安全要求等。对法规合规性以及在行业内的竞争水平进行系统性的确认,并跟随法规的更新以及行业趋势,动态的更新系统需求。 需求导入和前置化验证:负责将系统需求进行文档化和结构化以及进行系统需求建模,通过仿真对需求定义进行前置化确认; 工作闭环:能与组内各个功能专家共同制定符合项目方向的技术需求,并完成在系统内的导入及与外部门的功能的连接。负责向合作伙伴解读需求,在实施阶段组织评审活动,对于开发概念、技术方案及实施细节进行确认;并设计系统级的测试案例,在验证阶段实施其实施验证直到形成闭环; 评审:对合作伙伴的系统架构、软件架构、软件设计等进行审核。 设计:在自研系统中担纲系统设计工作,负责按照项目定义架构需求并将其实现,并分解给下游的软件、硬件、标定等工作模块。定义自研项目的FMEA,并与功能安全工程师合作完成功能安全的工作。

更新于 2025-05-22上海
logo of bytedance
社招A96355A

1、负责国际化视频架构方向业务测试、自动化测试、性能测试、系统级测试,保证业务稳定性、保障核心链路高可用; 2、为国际化短视频业务提供多终端(Web/移动客户端/PC客户端)、直播、点播音视频等系统级测试解决方案; 3、能针对现有的视频架构质量保障流程进行测试效率分析,制定测试提效方案,保障项目的高质量交付; 4、根据质量评估结果,协助开发工程师定位、分析和解决测试过程中的复杂技术问题与业务问题。

更新于 2025-04-14深圳
logo of bytedance
社招3年以上A168337A

1、负责火山引擎超大规模公共服务区与开发测试环境高效经营的平台工程建设,打造业界领先的云基础设施管理平台; 2、负责火山引擎的工程质量规范设计与优化,持续提升云服务版本的交付质量与升级效率,支撑业务高速迭代与稳定性建设; 3、负责火山引擎公共服务区技术架构的设计与演进,持续推进云基础设施的安全合规、稳定可靠、成本合理; 4、负责推进火山引擎基础设施管理工作朝着自动化、平台化、智能化方向演进,提升整体经营管理效率。

更新于 2023-12-18杭州