小米大语言模型推理优化工程师
任职要求
1. 编程能力 :精通C/C++,熟悉Python,具备扎实的数据结构与算法基础,ACM/ICPC、NOI等竞赛获奖者优先 2. GPU与CUDA :熟悉NVIDIA GPU架构及编程模型,掌握CUDA核函数优化、显存管理、多流并发等技术,有实际性能调优经验 3. 框架与工具 :熟悉PyTorch、Megatron、vLLM/SGLang等深度学习训练和推理框架 4. 工程经验 :有…
工作职责
1. 负责大语言模型线上推理框架的性能优化,解决高并发、低延迟、高可靠性等核心问题,提升服务吞吐量与稳定性 2. 设计并实现分布式大模型推理系统,优化多卡(如NVIDIA GPU集群)资源调度与通信效率,支持千卡级训练/推理场景 3. 深度适配NVIDIA GPU硬件架构,利用CUDA、cuDNN等工具链进行算子级优化,提升模型计算效率与显存利用率 4. 调研并引入前沿技术(如异构计算、AI编译器优化),推动模型量化、蒸馏等轻量化方案落地
1. 负责大模型和多模态大模型的推理引擎系统设计和研发。 2. 负责深度优化大语言模型推理引擎,降低引擎推理延迟,提升引擎吞吐,达到业内SoTA 性能。。 3. 推进模型量化、模型裁剪、模型蒸馏等算法,提升大模型推理引擎的性能。
1、推理框架开发,适配电商内部自研NLP/CV/MLLM等模型架构,开发针对电商场景的高性能推理框架; 2、模型推理加速研究,包括但不限于模型量化蒸馏剪枝,低精度计算,CUDA算子优化,并行计算优化,投机采样,PD分离等加速手段; 3、负责模型训练优化算法的研究与开发,运用数据并行、模型并行、通信优化等前沿技术,提升模型训练速度及效率; 4、技术输出:定期分享训练和推理优化技术,赋能业务,沉淀专利和论文。
1、推理框架开发,适配电商内部自研NLP/CV/MLLM等模型架构,开发针对电商场景的高性能推理框架; 2、模型推理加速研究,包括但不限于模型量化蒸馏剪枝,低精度计算,CUDA算子优化,并行计算优化,投机采样,PD分离等加速手段; 3、负责模型训练优化算法的研究与开发,运用数据并行、模型并行、通信优化等前沿技术,提升模型训练速度及效率; 4、技术输出:定期分享训练和推理优化技术,赋能业务,沉淀专利和论文。
团队介绍:Data-电商-平台治理-内容理解基础算法团队,主要 focus 在 NLP/CV/多模态的大模型算法和基础算法研发上,旨在沉淀CV/NLP/多模态方向上的业界SOTA模型,针对电商数据优化算法,支持模型训练和推理加速,提升电商业务效果。 1、模型压缩和推理框架开发:推理加速的研究,包括但不限于模型量化、剪枝、TensorRT、TensorRT-LLM推理优化等; 2、梳理&沉淀算法库:抽象算法接口,提高算法/预训练模型的复用率,同时优化数据采集和模型训练的流程,提升效率; 3、技术输出:定期分享训练和推理优化技术,赋能业务,沉淀专利和论文。