快手分布式KV系统研发高级工程师
1、负责构建统一的跨多云、混合云的存储多活服务,针对存储系统的数据传输、按地域分布、多活等需求,提供可扩展、易维护的中间件服务; 2、负责在标准存储之上的增强、中间件服务,深入理解业务场景需求,针对性的为不同业务场景提供最合适的中间件方案; 3、构建跨云、跨云下云上的服务整体容灾方案,从CDN、服务降级、存储容灾等视角提供多云环境的容灾能力。
团队介绍:推荐架构团队支撑字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发,保障系统的稳定和高可用,致力于抽象系统通用组件和服务,建设推荐中台、数据中台;关于在线服务,在这里你有机会参与大规模机器学习在线预估框架的研发与优化,也有机会参与模型训练与调度等相关问题的研究与突破,解决系统瓶颈,降低成本开销;如你对大数据感兴趣,在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台,为推荐业务实现先进的消重、计数、特征服务等;我们期待热爱技术的你加入,一起创造更多可能。 1、负责设计和实现面向推荐/广告大模型推理和训练的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS)等多种介质进行数据的存储和迁移管理,实现近计算缓存+远端大容量存储的一体化分级系统; 2、负责优化推荐大模型KV Cache命中率,从推理框架、流量调度、多级缓存等多个系统维度入手定制化优化策略,和业务方协作完成端到端推理性能加速; 3、负责建设搜广推通用用户行为数据存储,设计和实现离在线EB级别行为数据的统一存储、IO、近端Cache解决方案,支撑EB级别训练和推理数据,提供高可用保障,在离在线混合负载下,高吞吐和低延时能力的分布式存储系统。
1.负责腾讯云对象存储基础COS和AI存储等领域的设计和研发工作; 2.负责腾讯云对象存储服务COS产品内部组件的研发和优化; 3.负责腾讯云对象存储服务COS的支撑平台设计、研发、优化及稳定性相关工作。