小米大模型训练与推理Infra工程师
任职要求
基本要求: - 计算机科学、软件工程、机器学习或相关领域的本科及以上学历,硕士或博士优先。 - 深入理解深度学习原理和分布式训练框架(如 Horovod、DeepSpeed、Ray 等)。 - 熟练掌握至少一种主流深度学习框架(如 PyTorch、TensorFlow 或 JAX)。 - 熟悉高性能计算技术(CUDA、NCCL、cuDNN 等)及硬件架构(GPU、NPU 等)。 - 具有扎实的编程能力,…
工作职责
1. 模型训练基础设施开发 - 设计和实现支持大规模分布式训练的计算平台,优化模型训练效率和资源利用率。 - 维护和扩展现有的分布式训练框架,确保平台的高性能和稳定性(如基于 PyTorch、TensorFlow 或 JAX)。 - 集成和优化高性能计算技术(如 CUDA、MPI、NCCL 等)。 2. 模型推理基础设施开发 - 构建高效的推理框架,支持大模型的在线和离线推理需求。 - 优化推理速度、内存占用和能耗,支持多种硬件架构(GPU、NPU等 )。 - 实现PD分离、Context Caching、模型量化、推敲编码等推理优化技术。 3. 性能监控与优化 - 开发工具链和监控系统,跟踪训练与推理过程的性能瓶颈。 - 分析并优化数据加载、通信效率和硬件利用率等关键环节。 4. 跨团队协作 - 与模型研究团队密切合作,理解模型需求,定制训练和推理策略。 - 支持产品团队的模型部署需求,推动大模型在实际场景中的落地应用。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。
1、参与大模型推理/训练优化。通过研发业界领先的AI Compiler 技术,支撑搜推场景在GPU上的训练计算性能优化;支持大模型推理优化技术在异构硬件上的落地; 2、参与各种大模型推理所需的功能性开发任务;相关编译优化功能开发,以图优化、算子融合、GPU高性能算子开发及自动Codegen等技术手段不断推高在不同卡型上的计算性能极限; 3、参与支持日常的大模型推理服务部署,参与内部日常提效工具的研发。