滴滴稳定性研发专家(J250709016)
任职要求
1. 8 年以上 Java 开发经验,精通 Java 基础类库及面向对象编程思想,深入理解 JVM 原理(如内存模型、垃圾回收机制),具备 JVM 调优实战经验; 2. 熟悉 MySQL 数据库原理,对事务机制、索引设计有深刻理解,具备复杂 SQL 性能优化经验;精通 Spring、Spring Boot、Spring Cloud、MyBatis 等开发框架,熟练掌握 Nginx、Tomcat 等中间件的部署与调优; 3. 熟悉 Rpc 框架、Redis、MQ(如 Kafka/RabbitMQ)…
工作职责
1. 负责第三方支付平台全流程架构设计,深度参与系统优化,聚焦基础架构搭建与公共组件研发,推动支付技术体系持续升级,支撑业务高速增长; 2. 确保支付平台日均千万级交易量平稳运行,攻坚核心技术难点,包括但不限于亿级流水场景下的高并发处理、分布式事务一致性、资金安全防护及服务高可用保障,保障系统全链路安全、可靠、高效; 3. 牵头构建支付系统稳定性监控、预警及应急响应机制,优化容灾方案,从技术层面降低故障风险,提升系统抗风险能力。
1. 参与国际化外卖核心交易链路的稳定性建设,深入分析业务设计与实现,评估技术方案的合理性与可行性。 2. 识别系统瓶颈与风险点,推动性能优化与可用性提升,确保代码质量与服务稳定性。 3. 引入创新技术与解决方案,以创新思维解决业务难题,提升系统效率。 4. 负责外卖核心系统的架构优化与性能调优,保障系统高可用性。 5. 推动平台稳定性方案在业务侧的落地,挖掘系统风险点及研发痛点,协助解决相关问题。
大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。
【业务介绍】 我们是小红书内稠密类模型(LLM/MLLM/SD/CV/NLP)统一的AI平台QuickSilver,负责调度公司内所有稠密类模型训练与推理资源,基于自建的训推引擎,为公司所有AI算法同学迭代业务模型提供端到端一站式AI服务;包括数据管理,模型管理,模型训练、压缩、推理、部署,服务管理,资源调度等一系列能力。 工作职责: 1、负责稠密类模型训练推理开发平台的架构设计和核心功能研发 2、设计和实现大模型训练部署流程,包括模型fine-tuning、推理服务化等 3、构建云原生架构,设计高可用、高性能的微服务体系 4、优化平台性能,提升系统稳定性和可扩展性