美团多模态大模型性能优化实习生

实习兼职核心本地商业-基础研发平台2025-12-01地点：北京状态：招聘

扫码手机上打开

任职要求

1. 计算机相关专业本科及以上学历，有相关项目经验。 
2. 熟悉LLM, Diffusion等相关模型结构和推理流程，熟悉GPU、NPU、分布式相关硬件原理。 
3. 具备良好的编程能力，熟练掌握Python/C++，有优秀的代码规范意识。
4. 熟悉深度学习框架（如Pytorch, TensorRT/OnnxRuntime、VLLM/SG…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 分析业务多模态模型计算性能瓶颈，资源利用率情况，制定算法或者工程方案，提高模型的计算性能、优化资源利用率。 
2. 通过模型压缩蒸馏、高性能算子开发、分布式计算或虚拟化部署等方式，持续优化业务的多模态模型性能和资源利用率。 
3. 将模型优化的技术沉淀为可服用的工具链或者平台，支持算法和业务自动化、高效的完成模型优化。 
4. 持续调研业界前沿的多模态模型推理性能优化技术，编写清晰的技术文档，分享优化经验，支持团队技术能力的提升。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

大模型+

Python+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生-多模态大模型软硬协同优化

实习阿里云研究型实习

1、负责研究AI大模型的推理性能优化算法，优化大模型推理部署的算力和访存瓶颈，提升AI模型在GPU、AI加速器等硬件上部署性能效率，推动大模型普惠应用和高性价比的竞争力； 2、负责高性能软硬结合的大模型推理优化方法研究，在AI类业务场景尤其是大模型场景下，通过结合模型算法和硬件来充分挖掘软硬件协同的组合优化潜力，带来高价值的性能和成本优势； 3、负责研发业界SOTA的多模态大模型计算性能优化方法创新，增强技术壁垒，并在云的商业业务中产生核心价值。

更新于 2025-10-14杭州

高性能优化实习生-Seed

实习A145980A

日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。团队介绍：字节跳动Seed团队成立于2023年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代AI交互等、在中国、新加坡、美国等地设有实验室和岗位。 Seed团队在AI领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的AI研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过50个应用场景。 1、使用混合精度、算子融合、分布式计算等手段，加速AI4S模型的训练和推理； 2、与算法团队深入合作，使用AI模型解决材料与生物领域复杂科学问题； 3、跟踪业界的最新进展，与团队共同建立广泛深入的专业认知。

更新于 2025-05-29北京

AIGC 2D/3D生成算法实习生

实习

AIGC方向 1、参与AIGC图像生成模型的研发、参与模型的构建、训练和评估，并提出改进方案以提升模型性能。 2、参与和应用小样本学习方法和技术，尝试在有限的数据集下构建有效的模型。参与实验和调研，提出创新性的解决方案，为解决实际问题提供可行的方案。 3、与产品团队合作，将研发的算法和模型转化为实际可用的产品。参与产品化的过程，协助将研究成果转化为高质量、可靠且易于使用的软件工具或服务。虚拟人方向 1、参与前沿AIGC技术在3D人物动作、3D物体、BlendShape等3D空间应用的研究与实践，包括探索新算法和技术，提升虚拟元素的真实感和交互性。 2、协助研究并实现3D空间中不同模态之间的翻译、生成和交互，使得不同模态之间的元素能够在3D空间中相互转化和互动。 3、支持多模态大模型的应用开发，实现在3D空间中可控的元素生成和编辑，包括人物动作、物体以及BlendShape等方面的操作和调整。 4、参与Soul社交元宇宙产品的研发和部署，利用创新的技术手段提升产品的用户体验和交互效果。

更新于 2024-03-13上海

【2027届】大模型推理研发实习生-创作发布

实习引擎

日常实习：面向全体在校生，为符合岗位要求的同学提供为期>3个月及以上的项目实践机会。团队介绍：创作发布团队负责小红书“+”号入口，是全平台用户笔记发布的核心能力模块，承载着内容生成、处理与分发的关键任务。我们希望通过智能化技术，持续提升内容创作效率与用户体验。在这里，AI 引擎工程师将聚焦于结合小红书内部业务特点，对“端 & 云 AI 推理引擎”进行深度优化，从模型能力构建、框架适配，到端云协同部署，推动算法真正落地业务，构建完整的推理闭环。你将接触并支持的算法方向包括：AIGC、文本与多模态大语言模型（LLM）、音频处理、基础视觉等多个前沿领域。这些模型往往结构复杂、实时性要求高，对底层推理性能提出了极高挑战。 1、参与海量大模型异构资源的调度编排、算力池化、弹性资源混布、潮汐资源拆借和Quota管理； 2、参与大模型推理服务的多角色、多阶段、PD分图/EP调度，KVCache-centric调度，实现动态、及时、准确的扩缩容管理； 3、参与通过技术手段实现计算资源、RDMA高速网络资源、缓存/存储资源的最优调度，充分发挥大规模分布式集群算力； 4、参与大模型服务的稳定性，通过线上和线下的多系统联动，实现在多种异构资源（GPU、CPU、其他异构硬件）、多云环境、多种网络流量场景的问题定位、诊断、隔离和快速恢复； 5、参与多机房、多地域、多云场景的在离线任务/服务调度，实现负载的合理化分布。

更新于 2025-10-22北京|上海|广州