美团推理加速与模型压缩高级工程师
任职要求
1.精通 C/C++ 和 Python 编程语言。 2.对 GPU 和 NPU 硬件架构有深入了解,并能熟练使用 CUDA 和 CUTLASS 进行编程。 3.熟悉并掌握各种模型压缩技术,包括但不限于量化(如GPTQ/AWQ/SmoothQuant)、剪枝(如Sheared-LLaMa)、蒸馏和 NAS。 4.熟悉 LLM 推理框架,如 vLLM、TensorRT-LLM 等。…
工作职责
1. 负责推理引擎的加速优化,不限于模型结构优化(MoE、Mamba)以及底层计算加速(INT4, FP8)。 2. 负责常见的生成式大模型压缩,不限于量化(QAT/PTQ)、剪枝(Pruning)、蒸馏(Distill)、稀疏(Sparse)、搜索(NAS)等技术探索。 3. 负责前沿模型压缩算法的调研、开发和落地。 4. 参与前沿生成式大模型的结构探索、开发以及落地。
我们是滴滴网约车MPT部门的大模型研究开发团队,致力于以大模型为核心,打通数据、技术与业务链路,推动AI在智能运营与交易市场中的应用革新。我们的研究方向涵盖大模型驱动的数据挖掘、智能运营系统、以及核心交易机制的技术演进。 工作职责与方向包括: - 负责基于大模型的智能运营系统构建,包括但不限于利用Prompt、SFT、RLHF、Agent等技术,打造面向业务的单点工具建设和产品工具集成。 - 负责基于大模型的交易技术任务和基础技术方案研发,包括但不限于基于大模型的判别式任务构建、基于大模型的基础公共特征挖掘,和交易市场主栈问题(定价、分单)中LLM的应用方案探索。 - 密切关注行业的最新动态,跟踪研究最新技术和趋势,推进有价值的技术在公司内部落地,探索前沿的算法迭代,推动技术创新。 - 与工程团队紧密合作,推动模型的工程化部署,包括模型压缩、推理加速等环节。
1.核心算法研发方面:负责大语言模型的核心算法研究与工程化落地,构建小米IoT商品理解、推理和生成能力的智能问答Agent系统。 2.RAG领域知识库体系构建:基于小米IoT生态链说明书知识,构建包括商品参数、功能问答、设置操作说明、故障排查等多源知识库。 3.RAG检索优化:优化改写、粗召、rerank等业务精排模型,提升大模型知识检索准确率。 4.探索IoT问答场景下的模型预训练、指令微调(Instruction Tuning)、对齐优化(Alignment)等关键技术,提升大模型在小米IoT商品问答中的表现。 5.技术前沿探索:跟踪大模型与Agent领域最新进展,推动小米产品领域问答场景下的技术创新与专利沉淀。
1. 大规模及中小规模模型分布式训练的性能优化,包括数据读取、算子优化、通信优化、显存优化等,加速训练过程,提升训练系统稳定性、资源利用效率及面向目标平台(如嵌入式设备)的可部署性; 2. 持续分析、优化大规模多机集群及中小规模训练任务的性能,与算法同事协作优化训练系统的整体效率和稳定性; 3. 负责云端推理服务的性能优化与落地,包括模型转换、计算图优化、算子融合、低精度推理(INT8/FP16)、推理框架适配(如TensorRT等),提升推理吞吐量、降低延迟和资源消耗; 4. 跟进业内先进的训练框架、推理框架及训练/推理优化技术,推动其在业务中的实践。