美团高级研发工程师 - 业务稳定性保障
任职要求
1.对于技术系统运行稳定性和连续性工作领域,有长期的热情,有兴趣深入理解稳定性运行背后所需要的系统性保障工作,具备较好的韧性与主动性; 2.三年以上Java开发经验,对常见数据结构和算法原理有较为深入的理解,有大型系统的开发/改进/策略优化经验; 3.熟悉系统高可用和稳定性方法策略,比如同城容灾、异地双活、异地多活等,有实战经验优先; 4.熟悉架构设计、性能优化,有运维领域、故障处理、监控、限流、降级、预案、容量规划实战经验优先; 5.熟悉公司的基础设施的使用和基本原理,能基于其源码和方案进行业务个性化的定制与改造; 6.具备良好的交流能力以及沉淀总结及方案输出能力,了解和分析业务需求,能进行公司内外部宣讲。 具备以下条件优先 熟悉系统高可用和稳定性方法策略,有SRE、故障处理、监控、限流、降级、预案、容量规划实战经验优先; 有产品化、平台化的意识,能输出技术产品的方案; 对于运维领域相关技术感兴趣,有机器学习、数据算法相关经验者优先。
工作职责
1.深入理解本地生活到店业务在业务保障领域的场景诉求,有机融合业务和技术,从运行稳定性、功能健壮性、性能容量等方面,基于公司的基础设施与中间件设计,探索并落地稳定性保障相关工作(容灾、容错、容量、应急快反),实现、优化业务保障相关产品和解决方案; 2.进行运维领域相关领域的探索,借助智能化的技术提升业务保障领域相关的能力和效率; 3.主导或参与业务保障相关技术平台的产品化、平台化建设,让技术具备更好的通用性和规模化复制能力; 4.通过技术影响力和团队协作能力横向推动本地生活到店业务的业务线、平台团队落地稳定性架构升级,并反向推动公司基础设施升级。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、负责大模型平台的架构设计和核心功能研发,构建云原生架构,设计高可用、高性能的微服务体系; 2、负责构建面向大模型全流程的DevOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地; 3、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、GPU虚拟化、存储&网络加速等手段,提升GPU集群使用效率; 4、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升AI生产效率,涉及k8s/kubeflow、网络通信、分布式训练等; 5、优化各AI平台性能,提升系统稳定性和可扩展性,保障大规模并发场景下的服务质量与用户体验; 6、持续研究分析业内创新AI平台产品,优化技术方案,改进产品功能,提升创新能力与产品体验。
1. 负责滴滴租车业务系统的架构设计及系统开发 2. 充分理解并深入挖掘业务需求,基于此制定前瞻性的系统规划,推动系统的持续进化 3. 具备较强的技术攻关能力,持续优化系统架构、性能和稳定性
1. 负责滴滴租车业务系统的架构设计及系统开发 2. 充分理解并深入挖掘业务需求,基于此制定前瞻性的系统规划,推动系统的持续进化 3. 具备较强的技术攻关能力,持续优化系统架构、性能和稳定性