滴滴稳定性研发专家(J250709016)

社招全职8年以上技术2025-07-10地点：北京状态：招聘

扫码手机上打开

任职要求

1. 8 年以上 Java 开发经验，精通 Java 基础类库及面向对象编程思想，深入理解 JVM 原理（如内存模型、垃圾回收机制），具备 JVM 调优实战经验；
2. 熟悉 MySQL 数据库原理，对事务机制、索引设计有深刻理解，具备复杂 SQL 性能优化经验；精通 Spring、Spring Boot、Spring Cloud、MyBatis 等开发框架，熟练掌握 Nginx、Tomcat 等中间件的部署与调优；
3. 熟悉 Rpc 框架、Redis、MQ（如 Kafka/RabbitMQ）…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责第三方支付平台全流程架构设计，深度参与系统优化，聚焦基础架构搭建与公共组件研发，推动支付技术体系持续升级，支撑业务高速增长；
2. 确保支付平台日均千万级交易量平稳运行，攻坚核心技术难点，包括但不限于亿级流水场景下的高并发处理、分布式事务一致性、资金安全防护及服务高可用保障，保障系统全链路安全、可靠、高效；
3. 牵头构建支付系统稳定性监控、预警及应急响应机制，优化容灾方案，从技术层面降低故障风险，提升系统抗风险能力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Java+

JVM+

SQL+

MySQL+

Spring+

Spring Boot+

Spring Cloud+

MyBatis+

开发框架+

Nginx+

还有更多 •••

登录查看完整学习资料

相关职位

专家工程师-稳定性(J250708016)

社招5年以上技术

1. 参与国际化外卖核心交易链路的稳定性建设，深入分析业务设计与实现，评估技术方案的合理性与可行性。 2. 识别系统瓶颈与风险点，推动性能优化与可用性提升，确保代码质量与服务稳定性。 3. 引入创新技术与解决方案，以创新思维解决业务难题，提升系统效率。 4. 负责外卖核心系统的架构优化与性能调优，保障系统高可用性。 5. 推动平台稳定性方案在业务侧的落地，挖掘系统风险点及研发痛点，协助解决相关问题。

更新于 2025-11-24北京

大数据引擎研发专家

社招2年以上技术类

1、【引擎研发】负责Spark、Presto、Hive 为基础的大数据查询引擎内核研发，跟进社区版本，改进性能，提升稳定性，研发新功能，修复内核BUG； 2、【业务支撑】负责排查、定位、解决生产集群问题，与运维同学一起维护生产集群的稳定性，协助业务方一起使用好大数据平台； 3、【平台规划】参与规划公司计算平台的技术演技，提升计算平台湖仓能力，基于云IAAS或者自建IAAS，打造高稳定性、高性能、低成本的计算平台。

更新于 2023-12-26上海|杭州

阿里云智能-运维平台研发专家-ABM 平台研发

社招5年以上云智能集团

- 参与 ABM 运维平台的产品研发工作，负责运维产品与服务的架构设计、工具框架优化与平台功能开发，提升 SRE 运维效率和平台产品质量； - 参与运维工具、数据平台、可观测平台、CI/CD 变更交付链路、异常处置链路及云原生运维管控链路的开发，支撑 SRE 及产研团队高效开发与运维大规模分布式系统； - 增强 ABM 产品能力，参与运维体系架构改进，提升业务侧稳定性与研发变更效率，看护计算平台基础架构；

更新于 2025-12-09杭州

业务技术-大模型后训练平台稳定性研发工程师 / 专家-AI infra

社招2年以上

1. 立足AI Agent研发运维视角，贯穿整个技术栈，在稳定、体验、效率和成本这四个方面持续进行优化 2. 基于AI研发领域的MaaS/PaaS/IaaS，进行模型训练与推理的算力保障，并提升资源使用率 3. 统性地提升Agent研发、部署、运行阶段的稳定性，适应Agent QPS、模型推理TPM每年提升1个量级的发展速度 4. 主导解决Agent研发运维过程中各类疑难问题，并推进完善产品与平台的能力 5. 系统性构建故障节点、慢节点检测平台化能力，响应并解决日常大模型任务的故障问题 6. 负责LLM 后训练（SFT、RLHF/RLAIF 等）相关链路稳定性治理、规范建设：理解研发与优化 LLM + RL/HRF 相关训练框架，提升扩展性、稳定性与性能（吞吐、显存占用、收敛效率等）。结合分布式训练技术（如 tensor / pipeline / data parallel），优化多机多卡训练性能和资源利用率。 7. 平台稳定性与工程质量：建设训练平台的观测与运维体系，完善监控、告警、日志与故障排查工具；持续提升平台的稳定性、可调试性和可维护性，产出高质量技术文档与设计方案。

更新于 2025-12-15杭州