logo of mi

小米大语言模型推理优化工程师

社招全职A113845地点:北京状态:招聘

任职要求


1. 编程能力 :精通C/C++,熟悉Python,具备扎实的数据结构算法基础,ACM/ICPC、NOI等竞赛获奖者优先
2. GPU与CUDA :熟悉NVIDIA GPU架构及编程模型,掌握CUDA核函数优化、显存管理、多流并发等技术,有实际性能调优经验
3. 框架与工具 :熟悉PyTorch、Megatron、vLLM/SGLang等深度学习训练和推理框架
4. 工程经验 :有…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责大语言模型线上推理框架的性能优化,解决高并发、低延迟、高可靠性等核心问题,提升服务吞吐量与稳定性
2. 设计并实现分布式大模型推理系统,优化多卡(如NVIDIA GPU集群)资源调度与通信效率,支持千卡级训练/推理场景
3. 深度适配NVIDIA GPU硬件架构,利用CUDA、cuDNN等工具链进行算子级优化,提升模型计算效率与显存利用率
4. 调研并引入前沿技术(如异构计算、AI编译器优化),推动模型量化、蒸馏等轻量化方案落地
包括英文材料
C+
C+++
Python+
数据结构+
算法+
CUDA+
性能调优+
PyTorch+
还有更多 •••
相关职位

logo of meituan
社招3年以上核心本地商业-基

1. 负责大模型和多模态大模型的推理引擎系统设计和研发。 2. 负责深度优化大语言模型推理引擎,降低引擎推理延迟,提升引擎吞吐,达到业内SoTA 性能。。 3. 推进模型量化、模型裁剪、模型蒸馏等算法,提升大模型推理引擎的性能。

更新于 2025-06-03北京|上海
logo of bytedance
社招A133881A

1、推理框架开发,适配电商内部自研NLP/CV/MLLM等模型架构,开发针对电商场景的高性能推理框架; 2、模型推理加速研究,包括但不限于模型量化蒸馏剪枝,低精度计算,CUDA算子优化,并行计算优化,投机采样,PD分离等加速手段; 3、负责模型训练优化算法的研究与开发,运用数据并行、模型并行、通信优化等前沿技术,提升模型训练速度及效率; 4、技术输出:定期分享训练和推理优化技术,助力业务,沉淀专利和论文。

更新于 2025-04-21上海
logo of bytedance
社招A189611A

1、推理框架开发,适配电商内部自研NLP/CV/MLLM等模型架构,开发针对电商场景的高性能推理框架; 2、模型推理加速研究,包括但不限于模型量化蒸馏剪枝,低精度计算,CUDA算子优化,并行计算优化,投机采样,PD分离等加速手段; 3、负责模型训练优化算法的研究与开发,运用数据并行、模型并行、通信优化等前沿技术,提升模型训练速度及效率; 4、技术输出:定期分享训练和推理优化技术,助力业务,沉淀专利和论文。

更新于 2025-04-21北京
logo of bytedance
社招A133922

1、推理框架开发,适配电商内部自研NLP/CV/MLLM等模型架构,开发针对电商场景的高性能推理框架; 2、模型推理加速研究,包括但不限于模型量化蒸馏剪枝,低精度计算,CUDA算子优化,并行计算优化,投机采样,PD分离等加速手段; 3、负责模型训练优化算法的研究与开发,运用数据并行、模型并行、通信优化等前沿技术,提升模型训练速度及效率; 4、技术输出:定期分享训练和推理优化技术,赋能业务,沉淀专利和论文。

更新于 2025-01-20上海