小米大模型量化工程师实习
任职要求
1.计算机科学、数学、统计学等相关专业,硕士及以上学历 2.扎实的编程基础,熟练掌握 C++和Python编程语言,熟悉常用深度学习框架,如PyTorch、TensorFlow 3.深入理解大模型的原理和架构,有 2 年以上大模型量化相关工作经验,有实际落地项目经验者优先 4.熟悉大模型量化的原理,包含低比特量化、混合精度量化等,熟悉常用量化算法,比如Smoothquant、GPTQ、AWQ等,熟悉端侧使用的量化工具高通(Qnn、AIMet)、联发科(Neural Pilot) 5.具备良好的团队协作能力和沟通能力,能够在跨部门合作中有效推进项目进展 6.对新技术有强烈的好奇心和学习热情,能够快速掌握并应用到实际工作中
工作职责
1.负责端侧大模型量化算法的研究与开发,包括但不限于低比特量化、混合精度量化等,提升模型推理效率,降低计算资源消耗 2.与大模型研发团队紧密合作,针对不同架构的大模型进行量化适配,确保量化后的模型性能损失最小化 3.搭建和优化大模型量化工具链,实现量化流程的自动化和高效化,提高整体研发效率 4.跟踪大模型量化领域的最新技术动态,将前沿技术引入实际项目,保持公司技术的先进性
1.围绕大模型异构训练集群,尤其是非NV GPU大规模异构硬件集群,面向大模型预训练、Finetune等场景进行新模型使能,系统分析/优化,业务支撑等工作,包括分布式优化框架,AI框架,网络集合通信,算子等方面内容; 2.负责大模型推理引擎的研发和优化,包括推理系统优化、模型量化压缩和模型部署; 3. 熟悉NLP类模型训练场景,有GPT,LlaMa、DeepSeek等相关知识和经验者优先 4. 熟悉视觉类,多模态大模型训练场景,有ViT, Swin Transformer, Stable Diffusion, MoE相关知识和经验者优先 5. 熟悉Megatron, Deepspeed, Colossal AI, FSDP等分布式框架,有相关知识、使用和调优经验者优先 6. 熟悉以下推理框架者优先,如FasterTransformer、vllm、sglang、LMDeploy、TensorRT-LLM等; 7. 熟悉PyTorch分布式场景,有二次开发经验,系统调优知识和经验者优先 8. 熟悉集合通信原理和基本知识,对NCCL有大规模使用,调优经验者优先 9. 熟悉算子开发流程,有CUDA编程知识和相关经验者优先 10. 熟悉NV GPU架构,对其他类型AI芯片有使用经验者优先
工作内容:语言大模型技术的研究和应用 负责大模型方向技术的研究和应用,构建汽车垂域智能系统,工作内容包括以下三个方向: a. 负责追踪大模型学术进展,预研前沿技术问题,打造行业领先技术影响力 b. 负责根据业务场景,抽象技术问题,预研和实现大模型技术,赋能整车业务 技术方向包括但不限于: 1. 模型架构、预训练方法、高效微调、模型评估及迭代 2. 知识增强、工具增强、AI Agent、RAG 3. 安全、时效性等问题解决 4. 训练和推理加速、模型量化、端测落地 5. 大模型核心能力提升,包括理解能力、知识能力、推理能力、生成能力和语言能力等 6、制定相关规范并形成项目管理文档。
1、探索研发针对大语言模型、多模态大模型、MoE模型、StableDiffusion模型等模型的压缩技术,包括但不限于量化、蒸馏、剪枝、稀疏化等; 2、参与/负责多个业务场景中的模型压缩技术实现,对模型进行轻量化压缩,提高训练/推理效率,支持业务降本增效; 3、参与/负责针对英伟达GPU、华为昇腾NPU等不同的计算硬件,制定不同的模型压缩方案并在业务落地;