小红书搜广推 - 训练框架研发工程师 / 专家
任职要求
职位要求: 1、熟练掌握Linux环境下的C/C++与Python语言; 2、接触过至少一种机器学习框架(Tensorflow / PyTorch / MxNet 或其他自研框架); 3、有以下至少一项的背景知识与经验:GPU编程,编译器,高性能网络,分布式存储,集群调度; 4、具有独立解决问题的能力,良好的团队合作精神; 5、有强烈的工作责任心,较好的学习能力、沟通能力和自驱力; 6、有良好的工作文…
工作职责
【业务介绍】 作为公司统一的模型引擎团队,支撑公司内所有搜推广类业务的工程侧工作,包括了模型推理、训练、参数服务器、特征工程等服务,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的模型服务。 【岗位职责】 1、负责小红书搜广推-机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
岗位职责: 1、负责小红书搜广推-机器学习训练框架的研究与开发,服务于全公司各个产品; 2、参与机器学习训练框架底层组件的抽象,设计,优化与落地; 3、与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
【业务介绍】 作为公司统一的模型训练引擎团队,支撑公司内所有搜推广类业务的训练工程侧工作,包括模型训练、参数服务器、特征样本流水线等,通过引擎能力的持续建设结合多元异构算力为业务提供高效、灵活、稳定的搜广推模型服务。 为公司核心的搜广推业务提供关键的模型训练引擎支撑,解决超大规模稀疏特征训练的核心问题,不断挖掘异构硬件算力,为公司搜广推业务增长提供保障,并获得快速的成长与提升。 【岗位职责】 1、负责小红书搜广推业务线的机器学习训练框架的研发与迭代,核心支持公司所有相关业务场景; 2、深入参与分布式训练、自动并行化、参数服务器、特征样本流水线等系统底层功能的创新设计与优化,实现软硬件协同的极致训练效率; 3、跨团队合作,与公司算法部门深度协同,针对关键项目开展算法与系统的联合优化,推动解决实际业务挑战; 4、推动自动化扩展、智能资源调度、跨架构设备兼容(NV GPU、GPGPU、XPU等)、AI系统可观测性等先进技术在公司模型训练平台落地; 5、跟踪并推动AI系统领域的最新技术趋势(如生成式推荐、AI编译优化、RDMA/NCCL通信计算并发等),持续保持平台业界领先优势。
1. 参与超大规模的 AI 大模型训练、推理平台建设,聚焦大模型场景高性能算子、模块研发。 2. 负责研发大模型场景下“高性能训推算子模块”,提升大模型平台MFU/MBU。具体包括:a) 基于AI硬件深度理解,针对美团大模型场景研发创新性高性能模块;b) 协同框架算法设计研发平台训推技术方案;c) 调研分析业界最前沿技术方案,等等。 3. 参与搜广推场景模型训练推理核心模块研发,手段包括且不限于:AI编译器,DSL,专家级优化。