快手分布式KV系统研发高级工程师
任职要求
1、本科及以上学历,若从事过基于rocksdb/leveldb的存储与数据库的研究或在相关领域有工作经验则更佳; 2、熟悉linux平台,并擅长使用C++/C等编程语言,…
工作职责
1、参与快手PB级KV系统的研发工作,打造业界先进的标准化产品; 2、持续优化系统稳定性、性能、成本、可用性、可扩展性、可维护性等; 3、深入理解业务场景和需求,针对性的为不同业务场景提供最合适的缓存方案。
1、负责构建统一的跨多云、混合云的存储多活服务,针对存储系统的数据传输、按地域分布、多活等需求,提供可扩展、易维护的中间件服务; 2、负责在标准存储之上的增强、中间件服务,深入理解业务场景需求,针对性的为不同业务场景提供最合适的中间件方案; 3、构建跨云、跨云下云上的服务整体容灾方案,从CDN、服务降级、存储容灾等视角提供多云环境的容灾能力。
团队介绍:推荐架构团队支撑字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、剪映等推荐系统架构的设计和开发,保障系统的稳定和高可用,致力于抽象系统通用组件和服务,建设推荐中台、数据中台;关于在线服务,在这里你有机会参与大规模机器学习在线预估框架的研发与优化,也有机会参与模型训练与调度等相关问题的研究与突破,解决系统瓶颈,降低成本开销;如你对大数据感兴趣,在这里也有机会参与通用实时计算系统的开发、构建统一的推荐特征中台,为推荐业务实现先进的消重、计数、特征服务等;我们期待热爱技术的你加入,一起创造更多可能。 1、负责设计和实现面向推荐/广告大模型推理和训练的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS)等多种介质进行数据的存储和迁移管理,实现近计算缓存+远端大容量存储的一体化分级系统; 2、负责优化推荐大模型KV Cache命中率,从推理框架、流量调度、多级缓存等多个系统维度入手定制化优化策略,和业务方协作完成端到端推理性能加速; 3、负责建设搜广推通用用户行为数据存储,设计和实现离在线EB级别行为数据的统一存储、IO、近端Cache解决方案,支撑EB级别训练和推理数据,提供高可用保障,在离在线混合负载下,高吞吐和低延时能力的分布式存储系统。
1.负责腾讯云对象存储基础COS和AI存储等领域的设计和研发工作; 2.负责腾讯云对象存储服务COS产品内部组件的研发和优化; 3.负责腾讯云对象存储服务COS的支撑平台设计、研发、优化及稳定性相关工作。
负责阿里集团、阿里云战略级产品SLS研发,在日增数百PB级的超大规模实时数据之上,挑战从“经典可观测性”向“AI Native 基建”的跨越。通过实时采集、索引、存储、语义检索和分析等技术,实时处理每日数百PB海量数据,并针对AI应用场景进行特定优化,提供智能、自动化数据检索和分析服务。加入该岗位,您将有机会在国内超大规模的实时日志平台上,打造新一代的AI基础设施。 1. 定义下一代 AI 数据基座: 基于现有海量日志平台,重构面向 Agent Runtime 的数据基础设施,解决高吞吐写入与低延迟语义检索共存的工程难题; 2. 构建 Data + AI 飞轮: 研发高性能的数据清洗与向量化流水线,从数据中实时化萃取高质量数据,构建AI存储和检索系统,通过构建数据反馈回路,使模型和Agent持续进化; 3. 超大规模系统攻坚: 维护并演进日处理百 PB 级数据的实时平台,在极致的成本与性能约束下,探索存算分离、混合索引等前沿技术落地。