logo of meituan

美团推理加速与模型压缩高级工程师

社招全职核心本地商业-基础研发平台地点:北京状态:招聘

任职要求


1.精通 C/C++Python 编程语言。
2.对 GPU 和 NPU 硬件架构有深入了解,并能熟练使用 CUDA 和 CUTLASS 进行编程。
3.熟悉并掌握各种模型压缩技术,包括但不限于量化(如GPTQ/AWQ/SmoothQuant)、剪枝(如Sheared-LLaMa)、蒸馏和 NAS。
4.熟悉 LLM 推理框架,如 vLLM、TensorRT-LLM 等。…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责推理引擎的加速优化,不限于模型结构优化(MoE、Mamba)以及底层计算加速(INT4, FP8)。
2. 负责常见的生成式大模型压缩,不限于量化(QAT/PTQ)、剪枝(Pruning)、蒸馏(Distill)、稀疏(Sparse)、搜索(NAS)等技术探索。
3. 负责前沿模型压缩算法的调研、开发和落地。
4. 参与前沿生成式大模型的结构探索、开发以及落地。
包括英文材料
C+
C+++
Python+
CUDA+
大模型+
还有更多 •••
相关职位

logo of didi
社招技术

我们是滴滴网约车MPT部门的大模型研究开发团队,致力于以大模型为核心,打通数据、技术与业务链路,推动AI在智能运营与交易市场中的应用革新。我们的研究方向涵盖大模型驱动的数据挖掘、智能运营系统、以及核心交易机制的技术演进。 工作职责与方向包括: - 负责基于大模型的智能运营系统构建,包括但不限于利用Prompt、SFT、RLHF、Agent等技术,打造面向业务的单点工具建设和产品工具集成。 - 负责基于大模型的交易技术任务和基础技术方案研发,包括但不限于基于大模型的判别式任务构建、基于大模型的基础公共特征挖掘,和交易市场主栈问题(定价、分单)中LLM的应用方案探索。 - 密切关注行业的最新动态,跟踪研究最新技术和趋势,推进有价值的技术在公司内部落地,探索前沿的算法迭代,推动技术创新。 - 与工程团队紧密合作,推动模型的工程化部署,包括模型压缩、推理加速等环节。

更新于 2025-09-22北京
logo of mi
社招A22739A

1.核心算法研发方面:负责大语言模型的核心算法研究与工程化落地,构建小米IoT商品理解、推理和生成能力的智能问答Agent系统。 2.RAG领域知识库体系构建:基于小米IoT生态链说明书知识,构建包括商品参数、功能问答、设置操作说明、故障排查等多源知识库。 3.RAG检索优化:优化改写、粗召、rerank等业务精排模型,提升大模型知识检索准确率。 4.探索IoT问答场景下的模型预训练、指令微调(Instruction Tuning)、对齐优化(Alignment)等关键技术,提升大模型在小米IoT商品问答中的表现。 5.技术前沿探索:跟踪大模型与Agent领域最新进展,推动小米产品领域问答场景下的技术创新与专利沉淀。

更新于 2025-05-30北京
logo of dji
社招嵌入式

1. 大规模及中小规模模型分布式训练的性能优化,包括数据读取、算子优化、通信优化、显存优化等,加速训练过程,提升训练系统稳定性、资源利用效率及面向目标平台(如嵌入式设备)的可部署性; 2. 持续分析、优化大规模多机集群及中小规模训练任务的性能,与算法同事协作优化训练系统的整体效率和稳定性; 3. 负责云端推理服务的性能优化与落地,包括模型转换、计算图优化、算子融合、低精度推理(INT8/FP16)、推理框架适配(如TensorRT等),提升推理吞吐量、降低延迟和资源消耗; 4. 跟进业内先进的训练框架、推理框架及训练/推理优化技术,推动其在业务中的实践。

更新于 2025-06-24深圳|上海
logo of oppo
校招AI/算法类

1. 负责多模态大模型压缩算法研发,探索并实现极低bit量化技术和稀疏化技术,保持推理精度的同时减少模型存储和计算资源消耗; 2. 负责多模态大模型编解码加速算法研发,降低端侧模型推理成本; 3. 参与端侧大模型技术体系建设,探索和实现高效大模型架构,开发和优化内部模型端侧化部署工具链。 4. 跟进大模型前沿技术发展趋势,探索相关算法的创新优化,发表高质量研究论文。

更新于 2025-07-14北京