小米端侧大模型推理工程师

社招全职A1788192025-07-30地点：北京状态：招聘

扫码手机上打开

任职要求

1. 了解业界主流大模型推理框架，深入理解MNN-LLM、vLLM、SGLang、TensorRT-LLM 等开源框架的设计与实现，具备框架开发经验者优先。
2. 掌握大模型低比特量化技术，具备大模型（如 AWQ, GPTQ, SpinQuant, Seq-MSE 等）的低比特（INT4）量化实践经验，熟悉相关算法原理与优化技巧。
3. 熟悉大模型推理核心优化技术，深入理解并掌握关键推理优化技术，包括但不限于：投机推理、Chunk Prefill、Prompt Cache、FlashAttention系列优化、高效KVCache管理等。
4. 了解主流开源大…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 负责端侧高性能大模型推理框架开发，充分挖掘后端硬件的算力，构建业界性能领先的AI框架
2. 负责小爱同学各业务大语言模型和多模态大模型落地到各种端侧设备上，包含车、手机、IoT设备等
3. 负责大模型低比特量化算法研究和开发，落地于小爱同学大模型业务
4. 负责业界大模型推理技术的跟踪调研，以及学术界技术的落地可行性分析

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

大模型+

MNN+

vLLM+

SGLang+

TensorRT+

还有更多 •••

登录查看完整学习资料

相关职位

顶尖应届-端侧大模型算法工程师-手机

校招

1.负责大模型在内的各类算法的移动端部署与优化； 2.负责移动端深度学习框架开发及算子优化； 3.不断挖掘移动芯片算力潜能，改良模型结构，实现业界领先的算法执行效能； 4.撰写相关论文，专利。【课题名称】端侧大模型效能优化【课题内容】解决大模型落地涉及的性能功耗内存限制，实现最高效的大模型推理方案。

更新于 2025-06-25北京

顶尖应届-端侧大模型高性能推理研究工程师-小爱

校招

1.【低内存、低带宽】大模型低比特（1-3bit）量化创新算法； 2.【低内存、低带宽】端侧推理MoE或大参数量模型，解决占用大内存问题； 3.【高性能】端侧大模型高性能推理研究（比如：创新投机推理、硬件融合高性能计算、创新算法解决端侧prefill阶段的compute bound）。【课题名称】端侧大模型高性能推理计算【课题内容】研究大模型如何在端侧设备上（高通和自研F3芯片的算力、内存、带宽资源都严格约束，即使自研外挂的BW芯片也有内存强约束）进行高性能推理计算，同时保证模型算法效果满足业务需求、资源占用满足系统要求，有效解决云端大模型突出的隐私、成本问题。

更新于 2025-06-25北京

大模型量化工程师实习

实习

1.负责端侧大模型量化算法的研究与开发，包括但不限于低比特量化、混合精度量化等，提升模型推理效率，降低计算资源消耗 2.与大模型研发团队紧密合作，针对不同架构的大模型进行量化适配，确保量化后的模型性能损失最小化 3.搭建和优化大模型量化工具链，实现量化流程的自动化和高效化，提高整体研发效率 4.跟踪大模型量化领域的最新技术动态，将前沿技术引入实际项目，保持公司技术的先进性

更新于 2025-03-17北京

高级多模态算法工程师（端侧模型方向）-博士

校招AI/算法类

1. 负责多模态大模型压缩算法研发，探索并实现极低bit量化技术和稀疏化技术，保持推理精度的同时减少模型存储和计算资源消耗； 2. 负责多模态大模型编解码加速算法研发，降低端侧模型推理成本； 3. 参与端侧大模型技术体系建设，探索和实现高效大模型架构，开发和优化内部模型端侧化部署工具链。 4. 跟进大模型前沿技术发展趋势，探索相关算法的创新优化，发表高质量研究论文。

更新于 2025-07-14北京