logo of meituan

美团推理加速与模型压缩高级工程师

社招全职核心本地商业-基础研发平台地点:北京状态:招聘

任职要求


1.精通 C/C++Python 编程语言。
2.对 GPU 和 NPU 硬件架构有深入了解,并能熟练使用 CUDA 和 CUTLASS 进行编程。
3.熟悉并掌握各种模型压缩技术,包括但不限于量化(如GPTQ/AWQ/SmoothQuant)、剪枝(如Sheared-LLaMa)、蒸馏和 NAS。
4.熟悉 LLM 推理框架,如 vLLM、TensorRT-LLM 等。…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 负责推理引擎的加速优化,不限于模型结构优化(MoE、Mamba)以及底层计算加速(INT4, FP8)。
2. 负责常见的生成式大模型压缩,不限于量化(QAT/PTQ)、剪枝(Pruning)、蒸馏(Distill)、稀疏(Sparse)、搜索(NAS)等技术探索。
3. 负责前沿模型压缩算法的调研、开发和落地。
4. 参与前沿生成式大模型的结构探索、开发以及落地。
包括英文材料
C+
C+++
Python+
CUDA+
大模型+
还有更多 •••
相关职位

logo of quark
社招3年以上技术类-算法

1、针对具体任务场景(如语音识别、机器翻译、图像理解、文本生成等),开展深度学习模型的算法设计与创新,探索新型神经网络架构(如Transformer、MoE、扩散模型等),提升模型在复杂环境下的准确性、鲁棒性与泛化能力。负责端到端建模优化,结合上下文理解、对话状态追踪或多模态融合技术,增强系统在连续交互场景中的语义理解与响应能力。构建高质量训练数据体系,设计自动化语料清洗、标注与增强方案,覆盖多语言、多方言、噪声或小样本等挑战性场景,支撑模型持续迭代。 2、参与大规模预训练模型(LLM、VL模型等)的研发与微调,包括指令微调、对齐优化、提示工程及推理加速,提升模型在下游任务中的表现。探索大模型在跨模态理解(图文、音视频)、实时生成、知识推理等场景的应用路径,推动AIGC、智能摘要、自动字幕、翻译等业务的技术升级。研发高效微调技术(LoRA、Adapter等)与模型服务架构,实现大模型在资源受限环境下的灵活部署。 3、推动模型轻量化与推理加速,应用模型压缩、量化、蒸馏、剪枝等技术,提升模型在移动端、边缘设备或云端的运行效率。协同工程团队完成算法模块的高性能集成,优化分布式训练与推理框架,保障系统低时延、高并发与稳定性。支持多平台部署(移动端、PC端、Web端、云服务),参与全链路性能调优与监控体系建设。 4、跟踪人工智能领域最新研究进展(CV/NLP/ASR/TTS/MT等),结合业务需求进行技术预研与原型验证。与产品、数据、工程团队紧密协作,深入理解用户场景,推动AI能力在实际产品中的创新应用。

更新于 2026-04-08广州|北京
logo of mi
社招A22739A

1.核心算法研发方面:负责大语言模型的核心算法研究与工程化落地,构建小米IoT商品理解、推理和生成能力的智能问答Agent系统。 2.RAG领域知识库体系构建:基于小米IoT生态链说明书知识,构建包括商品参数、功能问答、设置操作说明、故障排查等多源知识库。 3.RAG检索优化:优化改写、粗召、rerank等业务精排模型,提升大模型知识检索准确率。 4.探索IoT问答场景下的模型预训练、指令微调(Instruction Tuning)、对齐优化(Alignment)等关键技术,提升大模型在小米IoT商品问答中的表现。 5.技术前沿探索:跟踪大模型与Agent领域最新进展,推动小米产品领域问答场景下的技术创新与专利沉淀。

更新于 2025-05-30北京
logo of alibaba
社招3年以上技术类-开发

1. 设计并开发高可用、高并发的分布式服务;构建微服务架构(如Spring Cloud/Dubbo),优化API性能与稳定性;负责数据库(MySQL/PostgreSQL)、缓存(Redis)、消息队列(Kafka/RabbitMQ)的技术选型与性能调优。 2. 将大模型部署到生产环境,设计实时/离线推理服务架构(如模型压缩加速、分布式训练框架集成);监控模型线上表现(如准确率、延迟、吞吐量);主导模型的迭代调优(参数调优、后训练、评测);监控模型效果,定位预测偏差、数据漂移等问题。 3. 理解大模型原理并制定工程化方案,与产品、UI/UX、测试及运维团队紧密协作,确保项目高质量交付。

更新于 2025-10-27杭州
logo of alibaba
社招3年以上技术类-开发

1. 设计并开发高可用、高并发的分布式服务;构建微服务架构(如Spring Cloud/Dubbo),优化API性能与稳定性;负责数据库(MySQL/PostgreSQL)、缓存(Redis)、消息队列(Kafka/RabbitMQ)的技术选型与性能调优。 2. 将大模型部署到生产环境,设计实时/离线推理服务架构(如模型压缩加速、分布式训练框架集成);监控模型线上表现(如准确率、延迟、吞吐量);主导模型的迭代调优(参数调优、后训练、评测);监控模型效果,定位预测偏差、数据漂移等问题。 3. 理解大模型原理并制定工程化方案,与产品、UI/UX、测试及运维团队紧密协作,确保项目高质量交付。

更新于 2025-11-13杭州