小米大语言模型推理优化工程师

社招全职A1138452024-09-24地点：北京状态：招聘

扫码手机上打开

任职要求

1. 编程能力 ：精通C/C++，熟悉Python，具备扎实的数据结构与算法基础，ACM/ICPC、NOI等竞赛获奖者优先
2. GPU与CUDA ：熟悉NVIDIA GPU架构及编程模型，掌握CUDA核函数优化、显存管理、多流并发等技术，有实际性能调优经验
3. 框架与工具 ：熟悉PyTorch、Megatron、vLLM/SGLang等深度学习训练和推理框架
4. 工程经验 ：有…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责大语言模型线上推理框架的性能优化，解决高并发、低延迟、高可靠性等核心问题，提升服务吞吐量与稳定性
2. 设计并实现分布式大模型推理系统，优化多卡（如NVIDIA GPU集群）资源调度与通信效率，支持千卡级训练/推理场景
3. 深度适配NVIDIA GPU硬件架构，利用CUDA、cuDNN等工具链进行算子级优化，提升模型计算效率与显存利用率
4. 调研并引入前沿技术（如异构计算、AI编译器优化），推动模型量化、蒸馏等轻量化方案落地

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+

C+++

Python+

数据结构+

算法+

CUDA+

性能调优+

PyTorch+

还有更多 •••

登录查看完整学习资料

相关职位

语音大模型推理优化工程师

社招3年以上核心本地商业-基

1. 负责大模型和多模态大模型的推理引擎系统设计和研发。 2. 负责深度优化大语言模型推理引擎，降低引擎推理延迟，提升引擎吞吐，达到业内SoTA 性能。。 3. 推进模型量化、模型裁剪、模型蒸馏等算法，提升大模型推理引擎的性能。

更新于 2025-06-03北京|上海

AI模型训练/推理优化工程师——抖音电商

社招A133922

1、推理框架开发，适配电商内部自研NLP/CV/MLLM等模型架构，开发针对电商场景的高性能推理框架； 2、模型推理加速研究，包括但不限于模型量化蒸馏剪枝，低精度计算，CUDA算子优化，并行计算优化，投机采样，PD分离等加速手段； 3、负责模型训练优化算法的研究与开发，运用数据并行、模型并行、通信优化等前沿技术，提升模型训练速度及效率； 4、技术输出：定期分享训练和推理优化技术，赋能业务，沉淀专利和论文。

更新于 2025-01-20上海

AI模型训练/推理优化工程师—抖音电商

社招A147384

更新于 2025-01-20北京

AI模型训练和推理优化工程师-电商

社招A16043

团队介绍：Data-电商-平台治理-内容理解基础算法团队，主要 focus 在 NLP/CV/多模态的大模型算法和基础算法研发上，旨在沉淀CV/NLP/多模态方向上的业界SOTA模型，针对电商数据优化算法，支持模型训练和推理加速，提升电商业务效果。 1、模型压缩和推理框架开发：推理加速的研究，包括但不限于模型量化、剪枝、TensorRT、TensorRT-LLM推理优化等； 2、梳理&沉淀算法库：抽象算法接口，提高算法/预训练模型的复用率，同时优化数据采集和模型训练的流程，提升效率； 3、技术输出：定期分享训练和推理优化技术，赋能业务，沉淀专利和论文。

更新于 2024-07-11上海