美团【转正实习】大模型推理引擎研发工程师
任职要求
1.熟练掌握CUDA编程、C++编程,数据结构和算法知识; 2.熟悉TVM或TensorRT或FastTransformer等推理优化框架; 3.熟悉LLM大模型相关背景知识,有相关方向的研究经验和产出。 岗位亮点 1.紧跟人工智能行业进展,接触到前沿技术和行业趋势,磨练出对人工智能的独到见解; 2.参与AI大模型的数据、训练与评测的全流程,了解从理论到工程实践的全面技能; 3.有机会参与公司的创新项目,跨足不同领域,拓宽人工智能技术的应用范围。
工作职责
1.负责LLM大语言模型的推理优化; 2.负责机器学习引擎的编译优化工作; 3.负责模型稀疏化和模型量化工作。

团队介绍: 作为搜狐媒体内容中心产品技术团队,我们聚焦AI与媒体融合创新,持续探索AI技术在内容生产、传播、商业化全链路的创新性实践。目前团队主要业务方向: 1、主攻品牌营销领域AI互动产品研发(线上H5/小程序+线下智能装置),通过创新交互模式助力客户品牌价值提升; 2、打造媒体内容AI智能化生产体系,研发媒体采编工具链与多模态内容引擎,持续提升内容生产效能; 3、建立新闻垂直领域AI能力评价标准,通过构建行业评测基准、专业数据集及领域适配模型,夯实AI技术在传媒场景的深度应用。 1、作为核⼼成员参与AI项目的设计与开发,构建⾯向媒体业务的AI应⽤和⼯具链; 2、负责全栈开发⼯作,涵盖AI服务的前端研发、后端研发、API设计及交互体验优化等; 3、参与AI模型的集成、部署和质量评测,提升媒体内容生产、运营、营销等环节的智能化⽔平; 4、团队项目⽬前处于快速演进阶段,⿎励创新和⼤胆尝试。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:智能创作团队是字节跳动创作场景业务中台,负责了抖音、剪映等产品的技术和业务研发,涵盖了计算机视觉、深度学习、高性能计算、图形学、特效引擎等技术领域,并以多种形式向公司内部各业务线提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案,同时通过火山引擎为企业客户提供服务。 1、参与LLM/VLM/SD等模型推理优化加速、推理引擎和框架研发,服务于字节跳动内部业务; 2、通过编译优化、并行计算优化、图融合、高效CUDA算子开发、低精度计算、流式推理、投机采样、高并发服务请求优化等高性能优化技术打造业界领先的大模型推理引擎; 3、与公司各算法部门深度合作,分析业务性能瓶颈,对大模型模型进行性能分析与优化,投入大模型工具链开发及技术生态的建设。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:智能创作团队是字节跳动创作场景业务中台,负责了抖音、剪映等产品的技术和业务研发,涵盖了计算机视觉、深度学习、高性能计算、图形学、特效引擎等技术领域,并以多种形式向公司内部各业务线提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案,同时通过火山引擎为企业客户提供服务。 1、参与LLM/VLM/SD等模型推理优化加速、推理引擎和框架研发,服务于字节跳动内部各业务; 2、通过编译优化、并行计算优化、图融合、高效CUDA算子开发、低精度计算、流式推理、投机采样、高并发服务请求优化等高性能优化技术打造业界领先的大模型推理引擎; 3、与公司各算法部门深度合作,分析业务性能瓶颈,对大模型模型进行性能分析与优化,投入大模型工具链开发及技术生态的建设。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:智能创作团队是字节跳动创作场景业务中台,负责了抖音、剪映等产品的技术和业务研发,涵盖了计算机视觉、深度学习、高性能计算、图形学、特效引擎等技术领域,并以多种形式向公司内部各业务线提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案,同时通过火山引擎为企业客户提供服务。 1、参与LLM/VLM/SD等模型推理优化加速、推理引擎和框架研发,服务于字节跳动内部各业务; 2、通过编译优化、并行计算优化、图融合、高效CUDA算子开发、低精度计算、流式推理、投机采样、高并发服务请求优化等高性能优化技术打造业界领先的大模型推理引擎; 3、与公司各算法部门深度合作,分析业务性能瓶颈,对大模型模型进行性能分析与优化,投入大模型工具链开发及技术生态的建设。