小红书搜广推 - 训练框架研发工程师 / 专家

社招全职引擎2025-07-11地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

职位要求：
1、熟练掌握Linux环境下的C/C++与Python语言；
2、接触过至少一种机器学习框架（Tensorflow / PyTorch / MxNet 或其他自研框架）；
3、有以下至少一项的背景知识与经验：GPU编程，编译器，高性能网络，分布式存储，集群调度；
4、具有独立解决问题的能力，良好的团队合作精神；
5、有强烈的工作责任心，较好的学习能力、沟通能力和自驱力；
6、有良好的工作文…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

【业务介绍】
作为公司统一的模型引擎团队，支撑公司内所有搜推广类业务的工程侧工作，包括了模型推理、训练、参数服务器、特征工程等服务，通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的模型服务。
【岗位职责】
1、负责小红书搜广推-机器学习训练框架的研究与开发，服务于全公司各个产品；
2、参与机器学习训练框架底层组件的抽象，设计，优化与落地；
3、与全公司算法部门深度合作，为重点项目进行算法与系统的联合优化。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

C+

C+++

Python+

机器学习+

还有更多 •••

登录查看完整学习资料

相关职位

搜广推 - 训练框架研发工程师 / 专家

社招3-5年引擎

【业务介绍】作为公司统一的模型训练引擎团队，支撑公司内所有搜推广类业务的训练工程侧工作，包括模型训练、参数服务器、特征样本流水线等，通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。为公司核心的搜广推业务提供关键的模型训练引擎支撑，解决超大规模稀疏特征训练的核心问题，不断挖掘异构硬件算力，为公司搜广推业务增长提供保障，并获得快速的成长与提升。【岗位职责】 1、负责小红书搜广推业务线的机器学习训练框架的研发与迭代，核心支持公司所有相关业务场景； 2、深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化，实现软硬件协同的极致训练效率； 3、跨团队合作，与公司算法部门深度协同，针对关键项目开展算法与系统的联合优化，推动解决实际业务挑战； 4、推动自动化扩展、智能资源调度、跨架构设备兼容（NV GPU、GPGPU、XPU等）、AI系统可观测性等先进技术在公司模型训练平台落地； 5、跟踪并推动AI系统领域的最新技术趋势（如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等），持续保持平台业界领先优势。

更新于 2025-11-11北京|上海

【公海需求】-搜广推-训练框架研发工程师 / 专家

社招基础后端

岗位职责： 1、负责小红书搜广推-机器学习训练框架的研究与开发，服务于全公司各个产品； 2、参与机器学习训练框架底层组件的抽象，设计，优化与落地； 3、与全公司算法部门深度合作，为重点项目进行算法与系统的联合优化。

北京|上海

【算法平台】分布式训练框架工程师/专家

社招3年以上技术类

团队负责研发一站式搜广推模型机器学习平台，该岗位专注于面向搜索/推荐/广告场景的机器学习分布式训练系统研发 1、负责研发搜广推稀疏大模型分布式GPU同步训练框架，支持GPU单机多卡、多机多卡训练，支持稀疏参数的多级缓存架构和异步流水训练，满足搜广推稀疏大模型离线训练、在线学习、特征准入和淘汰等算法需求； 2、负责TensorFlow/Pytorch框架的后端GPU训练性能优化，个别自定义GPU算子的cuda kernel开发和优化； 3、参与样本数据平台、搜推模型全链路解决方案、LLM4REC等重要方向的研发，提升平台的效率和易用性，加速算法同学的模型迭代效率。

更新于 2023-12-26北京

数字座舱大模型算法工程师/专家

社招5-7年算法

1、参与LLM/语音/图像相关的大模型在数字座舱场景下的研发，包括模型的设计、训练和优化； 2、大模型相关上线工作，解决大模型业务落地的相关技术障碍，支撑各种落地应用包括但不限于openQA应用，相关QA应用，任务型pipeline分模块应用，端到端对话系统应用等。

更新于 2023-05-26北京|上海