小红书机器学习训练框架研发工程师-AI技术部
任职要求
1、至少熟练掌握Linux环境下 C/C++、Python语言之一,具备扎实的数据结构和算法基本功,擅长并行程序开发; 2、对至少一种主流的机器学习框架(TensorFlow / PyTorch等)的内部实现有一定了解; 3、有以下至少一项的背景知识与…
工作职责
1、设计和实现机器学习平台系统, 包括dataloader/工具链/组件等AI基础设施, 落地业务功能需求; 2、高效优化和部署 计算机视觉、语音识别、语音合成、自然语言处理 等业务的训练任务; 3、与公司各算法部门深度合作, 分析业务性能瓶颈和系统架构特征, 软硬件结合优化, 实现极致性能。
【业务介绍】小红书业务技术部-引擎架构团队,支撑社区、搜索、商业化等小红书核心业务落地AI技术 : 1. 参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)的算法易用的Agentic-RL训练框架; 2. 通过并行计算优化、分布式架构优化、异构调度等技术优化RL训练效率
【业务介绍】 作为公司统一的模型训练引擎团队,支撑公司内所有搜推广类业务的训练工程侧工作,包括模型训练、参数服务器、特征样本流水线等,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。 为公司核心的搜广推业务提供关键的模型训练引擎支撑,解决超大规模稀疏特征训练的核心问题,不断挖掘异构硬件算力,为公司搜广推业务增长提供保障,并获得快速的成长与提升。 【岗位职责】 1、负责小红书搜广推业务线的机器学习训练框架的研发与迭代,核心支持公司所有相关业务场景; 2、深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化,实现软硬件协同的极致训练效率; 3、跨团队合作,与公司算法部门深度协同,针对关键项目开展算法与系统的联合优化,推动解决实际业务挑战; 4、推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地; 5、跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责小红书大规模机器学习平台的后台系统设计和开发工作; 2、将平台和框架结合,通过任务调度、弹性容灾、性能优化等措施端到端提升深度学习的训练效率,涉及k8s/kubeflow、网络通信、分布式训练等; 3、设计和构建 K8S 场景下的资源调度系统,参与底层GPU训练资源的调度优化与管理; 4、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。