小红书参数服务器研发工程师-搜广推
任职要求
1. 优秀的代码能力、数据结构和基础算法功底,熟悉C++开发,有分布式系统或高性能计算相关开发经验(存储、并发、网络)。 2. 有一线互联网公司有参数服务器或大规模稀疏模型推理系统研发经历,深入理解并拥有大规模参数服务和分布式系统的实践经验,熟悉其架构、一致性协议与性能调优。 3. 参与推理/训练参数服务器的迭代优化,优化GPU PS embedding 相关功能,包括不限于参数更新 / 存储 / 索引构建等…
工作职责
1. 参与下一代高性能参数服务器(Parameter Server)的架构设计、核心模块开发与持续迭代,以满足大规模稀疏模型在线推理的超低延迟、高吞吐需求。 2. 深入优化参数服务器的通信框架(如BRPC、RDMA)、存储引擎(HBM、MEM、SSD分层存储)、并发模型和负载均衡策略,解决海量参数同步中的瓶颈问题。 3. 与算法团队紧密合作,理解前沿模型(如大语言模型、推荐系统、多模态模型)对训推基础设施的需求,并将其转化为系统级的创新与优化; 4. 跟踪业界前沿技术,探索其在参数服务器中的落地场景,推动平台技术演进。
【业务介绍】 作为公司统一的模型训练引擎团队,支撑公司内所有搜推广类业务的训练工程侧工作,包括模型训练、参数服务器、特征样本流水线等,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。 为公司核心的搜广推业务提供关键的模型训练引擎支撑,解决超大规模稀疏特征训练的核心问题,不断挖掘异构硬件算力,为公司搜广推业务增长提供保障,并获得快速的成长与提升。 【岗位职责】 1、负责小红书搜广推业务线的机器学习训练框架的研发与迭代,核心支持公司所有相关业务场景; 2、深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化,实现软硬件协同的极致训练效率; 3、跨团队合作,与公司算法部门深度协同,针对关键项目开展算法与系统的联合优化,推动解决实际业务挑战; 4、推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地; 5、跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势。
【业务介绍】 作为公司统一的模型引擎团队,支撑公司内所有搜推广类业务的工程侧工作,包括了模型推理、训练、参数服务器、特征工程等服务,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的模型服务。 【岗位职责】 1、负责小红书搜广推-机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。

团队负责研发一站式搜广推模型机器学习平台,该岗位专注于面向搜索/推荐/广告场景的机器学习分布式训练系统研发 1、负责研发搜广推稀疏大模型分布式GPU同步训练框架,支持GPU单机多卡、多机多卡训练,支持稀疏参数的多级缓存架构和异步流水训练,满足搜广推稀疏大模型离线训练、在线学习、特征准入和淘汰等算法需求; 2、负责TensorFlow/Pytorch框架的后端GPU训练性能优化,个别自定义GPU算子的cuda kernel开发和优化; 3、参与样本数据平台、搜推模型全链路解决方案、LLM4REC等重要方向的研发,提升平台的效率和易用性,加速算法同学的模型迭代效率。