字节跳动分布式KV / 缓存系统研发工程师
任职要求
职位要求: 1、计算机基础知识扎实,了解计算机体系结构基础,具备多线程编程、网络编程、操作系统等基础知识。 2、具有Linux环境下的 Modern C++/Go/python 至少一种语言的开发实践经验。 3、有分布式存储相关sense,了解分布式存储基础概念和面临的问题。 4、具有良好的编码规范、单元测试习惯。 5、逻辑思维清晰、有产品思维、自驱能力强、项目管理能力。 具备以下条件之一者优先: 1、具有开源项目研发经验,是开源项目的committer者优先。 2、具有高性能服务端编程经验,有熟练使用 GDB/Perf等工具分析调优经验者优先。 3、熟悉相关开源系统或组件:如Redis、Cassandra/ScyllaDB、Leveldb/Rocksdb、Wiredtiger、Tcmalloc/Jemalloc、Brpc,或者有其他分布式存储系统开发经验者优先。 4、参加过数据库领域或其他算法或工程领域竞赛/比赛,获奖者优先。
工作职责
团队介绍 分布式KV团队为公司提供稳定可靠的在线KV存储服务。目前已经覆盖公司几乎所有业务线,支持百亿级请求处理能力。团队依靠公司业务的快速发展浪潮,背靠基础架构的综合技术力量支持,结合最新硬件/技术发展趋势,致力于做用户喜爱的、技术领先的、追求极致的KV存储标杆产品。 职位描述 1、负责字节跳动自研在线kv系统开发工作,提供极致大容量、高吞吐、高可用(容灾)、多地域、低延时、易使用、低成本 的kv存储服务。 2、针对字节跳动场景,包括:异地多活(CRDT)、无主高可用、高资源利用效率、多引擎支持、边缘存储等场景的支持和优化。 3、探索使用新硬件/新技术:包括ZNS SSD/PMEM/RDMA/io_uring/Run-to-completion/AI auto config 等持续提升系统的服务水平。 4、建设完善NoSQL数据生态:包括数据冷热沉降、备份/回滚/回档、bulkload、和其他系统数据互通的开发工作。 5、支持平台化的KV产品研发:包括支持Serverless、自动化运维、监控体系、Tracing建设等。
1. 负责万亿级别QPS的分布式缓存/存储集群,支撑公司所有产品线的业务需求; 2. 设计、研发高可用、高性能的缓存/存储架构和中间件,应对弹性扩缩容,秒级故障自动切换,异地多活,分布式事务等极具挑战性的工作内容和方向; 3. 优化系统性能,深入内核,提升基础服务相关资源的使用率,增加系统稳定性,保障业务运行; 4. 设计并研发自动化运维平台,提升运维质量和效率,探索运维自动化和智能化技术和方向。
1. 负责万亿级别QPS的分布式缓存/存储集群,支撑公司所有产品线的业务需求; 2. 设计、研发高可用、高性能的缓存/存储架构和中间件,应对弹性扩缩容,秒级故障自动切换,异地多活,分布式事务等极具挑战性的工作内容和方向; 3. 优化系统性能,深入内核,提升基础服务相关资源的使用率,增加系统稳定性,保障业务运行; 4. 设计并研发自动化运维平台,提升运维质量和效率,探索运维自动化和智能化技术和方向。
1、参与快手PB级KV系统的研发工作,打造业界先进的标准化产品; 2、持续优化系统稳定性、性能、成本、可用性、可扩展性、可维护性等; 3、深入理解业务场景和需求,针对性的为不同业务场景提供最合适的缓存方案。

团队负责研发一站式搜广推模型机器学习平台,该岗位专注于面向搜索/推荐/广告场景的机器学习分布式训练系统研发 1、负责研发搜广推稀疏大模型分布式GPU同步训练框架,支持GPU单机多卡、多机多卡训练,支持稀疏参数的多级缓存架构和异步流水训练,满足搜广推稀疏大模型离线训练、在线学习、特征准入和淘汰等算法需求; 2、负责TensorFlow/Pytorch框架的后端GPU训练性能优化,个别自定义GPU算子的cuda kernel开发和优化; 3、参与样本数据平台、搜推模型全链路解决方案、LLM4REC等重要方向的研发,提升平台的效率和易用性,加速算法同学的模型迭代效率。