荣耀算法系统优化专家(MLSys)端侧
任职要求
1、扎实的计算机系统,原理和体系结构基础; 2、丰富的CPU、GPU、TPU、NPU、x86、ARM、DSP或者AI处理器调优经验; 3、CUDA, cuDNN, TensorRT, OpenBLAS, OpenMP, MKL, OpenCL或其他并行计算/HPC开发经验; 4、XLA,TVM,MLIR, Halide, Tiramisu和Glow计算图优化经验; 5、编译器(LLVM/GCC),AI框架经验; 6、具有量化/压缩/稀疏/混精运算等领域的实际经验是一个加分项; 7、具有视觉/音频/自然语言处理/推荐系统中一个以上应用领域的实际经验是一个加分项。
工作职责
1、负责深度学习框架的基础功能开发,实现各种计算操作,支持常见芯片平台; 2、使用各种高性能计算库提升深度学习框架计算速度; 3、高性能计算、并行计算、异构计算、性能优化; 4、紧跟业内最新技术,甄别技术成熟度。
我们正在寻找业界顶尖的系统专家,加入我们的AI基础架构团队,共同设计和构建下一代生成式AI的“在线服务操作系统”。您的使命是解决将前沿AI能力(大模型、AI Agent、多模态等)转化为大规模、高效率、高可用在线服务时所面临的系统性、全栈性挑战。您将负责端到端的服务性能与架构演进,从顶层应用到底层硬件,全面提升AI服务的竞争力。 具体职责包括(若你对以下一个或者多个方向感兴趣均欢迎投递): 1. 大规模模型服务平台与智能调度系统设计: (1)负责承载大规模在线模型服务(Serving)平台的核心架构设计与演进,通过对底层推理引擎(如PAI平台提供)的深度适配与协同优化,实现极致的推理吞吐与资源利用率。 (2)设计并实现面向复杂混合负载(长/短序列长度、多Lora、多模型、异构资源、多租户、高/低优先级)的上层智能请求调度与资源管理系统,通过与推理引擎的深度协同,动态调整调度策略,保障服务质量(SLA)并最大化云上服务的性价比。 2. 分布式基础设施与底层硬件优化: (1)负责面向大规模模型服务的分布式推理拓扑管理与通信计算协同优化,针对张量并行、流水线并行等场景,优化跨节点通信(InfiniBand/RoCE, NVLink),降低端到端延迟。 (2)深入理解GPU、NPU等异构硬件架构与特性,负责从服务层面对底层计算、编译优化(由PAI等引擎团队提供)进行性能评测、分析与反馈,驱动端到端的硬件效能提升。 3. AI应用层运行时与算法协同优化: (1)深入AI Agent、检索增强生成(RAG)、多模态理解等复杂应用场景,设计并优化其专用的高效运行时(Runtime),解决长链条、多依赖、异步任务流的性能瓶颈。 (2)负责高性能向量检索(Vector Search)与图计算(Graph Computing)引擎的服务化与集成,优化其在RAG和复杂推理场景下的数据访问与计算效率,实现数据层与模型层的无缝高效协同。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
1、设计、开发和维护机器学习平台及相关工具,支持nlp,cv等模型的训练和推理; 2、负责训练&推理优化,包括但不限于GPU计算加速、网络通信优化,存储性能提升等; 3、联合算法团队,搭建及优化分布式机器学习训练及推理系统,能够根据数据特点从算法和工程角度进行优化和调整; 4、构建高可用的模型服务,保证服务的稳定性、高效性。让平台不断适应业务发展的需求和趋势; 5、参与开源社区的贡献,推动公司技术在业界的影响。
1.面向多种算力硬件和高性能网络设计分布式训练架构,包括样本IO优化、计算图编译与执行、多维度并行策略、多模型交互流程等,支持万亿参数模型在几万张GPU集群高效稳定训练,实现多种模态的基座和推理模型的高效稳定训练。 2.面向多种算力、网络环境和应用场景,设计并实现高性能的模型推理架构,应用量化、剪枝等模型压缩方法,持续降低推理成本。 3.通过手工优化方法,对特化模型子结构和硬件设备上实现SOTA性能,持续迭代基于编译的优化方案,提升通用优化的适用性、优化效果以及对新硬件的覆盖能力。 4.管理及优化全公司算法团队硬件资源,通过算法预估与启发式策略,对全公司万级别节点的大规模GPU/CPU集群构建精细化调度服务能力,持续提升资源使用效率。