小红书大模型推理引擎研发实习生

实习兼职引擎2026-02-12地点：北京状态：招聘

扫码手机上打开

任职要求

任职资格：
1、优秀的代码能力、数据结构和基础算法功底，熟悉C++/Python开发，熟悉 Linux/Git 开发环境；
2、熟悉至少一种主流基础深度学习训练或推理框架（TensorFlow/PyTorch/PaddlePaddle/TensorRT等）的使用和实现；
3、熟悉主流LLM模型结构，熟悉至少一种主流LLM推理框架（vLLM/SGLang/TensorRT-LLM等）的使用和实现；
4、熟悉GPU硬件架构，了解GPU 软件栈（CUDA，cuDNN)，具备 GPU 性能…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

工作职责：
1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架；
2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术，打造高效、易用、领先的AI推理框架；
2、深度参与周边深度学习系统多个子方向的工作，包括但不限于模型管理、推理部署、日志/监控、工作流编排等；
3、与全公司各业务算法部门深度合作，为重点项目进行算法与系统的联合优化，支撑业务目标达成。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据结构+

算法+

C+++

Python+

Linux+

Git+

深度学习+

TensorFlow+

还有更多 •••

登录查看完整学习资料

相关职位

大模型推理优化研发实习生-Seed

实习A210970

日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。团队介绍：字节跳动 Seed 团队成立于 2023 年，致力于寻找通用智能的新方法，追求智能上限。团队研究方向涵盖 LLM、GenMedia、AI for Science、机器人等，在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心，坚持深耕基础，期望成为世界一流的 AI 研究团队，为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力，支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责公司级大模型推理框架的设计、开发与持续性能优化； 2、与算法团队紧密协作，推动模型算法与系统架构的联合优化与应用落地； 3、基于GPU/CUDA等高性能计算技术，优化计算、调度与访存性能，构建业界领先的LLM推理引擎； 4、跟踪并引入机器学习系统前沿技术，探索推理、调度与部署体系的创新方向； 5、深入研究VLM的AI应用场景，进行前沿探索与创新。

更新于 2025-11-07上海

大模型推理研发实习生-豆包大模型

实习A199756

日常实习：面向全体在校生，为符合岗位要求的同学提供为期3个月及以上的项目实践机会。团队介绍：字节跳动豆包大模型团队成立于 2023 年，致力于开发业界最先进的 AI 大模型技术，成为世界一流的研究团队，为科技和社会发展作出贡献。豆包大模型团队在AI领域拥有长期愿景与决心，研究方向涵盖NLP、CV、语音等，在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源，在相关领域持续投入，已推出自研通用大模型，提供多模态能力，下游支持豆包、扣子、即梦等50+业务，并通过火山引擎开放给企业客户。目前，豆包APP已成为中国市场用户量最大的AIGC应用。 1、参与海量大模型异构资源的调度编排、算力池化、弹性资源混布、潮汐资源拆借和Quota管理； 2、参与大模型推理服务的多角色、多阶段、PD分图/EP调度，KVCache centric调度，实现动态、及时、准确的扩缩容管理； 3、参与通过技术手段实现计算资源、RDMA高速网络资源、缓存/存储资源的最优调度，充分发挥大规模分布式集群算力； 4、参与大模型服务的稳定性，通过线上和线下的多系统联动，实现在多种异构资源（GPU、CPU、其他异构硬件）、多云环境、多种网络流量场景的问题定位、诊断、隔离和快速恢复； 5、参与多机房、多地域、多云场景的在离线任务/服务调度，实现负载的合理化分布。

更新于 2025-03-11北京

【2027届】大模型推理研发实习生-创作发布

实习引擎

日常实习：面向全体在校生，为符合岗位要求的同学提供为期>3个月及以上的项目实践机会。团队介绍：创作发布团队负责小红书“+”号入口，是全平台用户笔记发布的核心能力模块，承载着内容生成、处理与分发的关键任务。我们希望通过智能化技术，持续提升内容创作效率与用户体验。在这里，AI 引擎工程师将聚焦于结合小红书内部业务特点，对“端 & 云 AI 推理引擎”进行深度优化，从模型能力构建、框架适配，到端云协同部署，推动算法真正落地业务，构建完整的推理闭环。你将接触并支持的算法方向包括：AIGC、文本与多模态大语言模型（LLM）、音频处理、基础视觉等多个前沿领域。这些模型往往结构复杂、实时性要求高，对底层推理性能提出了极高挑战。 1、参与海量大模型异构资源的调度编排、算力池化、弹性资源混布、潮汐资源拆借和Quota管理； 2、参与大模型推理服务的多角色、多阶段、PD分图/EP调度，KVCache-centric调度，实现动态、及时、准确的扩缩容管理； 3、参与通过技术手段实现计算资源、RDMA高速网络资源、缓存/存储资源的最优调度，充分发挥大规模分布式集群算力； 4、参与大模型服务的稳定性，通过线上和线下的多系统联动，实现在多种异构资源（GPU、CPU、其他异构硬件）、多云环境、多种网络流量场景的问题定位、诊断、隔离和快速恢复； 5、参与多机房、多地域、多云场景的在离线任务/服务调度，实现负载的合理化分布。

更新于 2025-10-22北京|上海|广州

AIGC模型优化实习生-智能创作

实习A79436

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：智能创作团队是字节跳动创作场景业务中台，负责了抖音、剪映等产品的技术和业务研发，涵盖了计算机视觉、深度学习、高性能计算、图形学、特效引擎等技术领域，并以多种形式向公司内部各业务线提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案，同时通过火山引擎为企业客户提供服务。 1、参与LLM/VLM/SD等模型推理优化加速、推理引擎和框架研发，服务于字节跳动内部业务； 2、通过编译优化、并行计算优化、图融合、高效CUDA算子开发、低精度计算、流式推理、投机采样、高并发服务请求优化等高性能优化技术打造业界领先的大模型推理引擎； 3、与公司各算法部门深度合作，分析业务性能瓶颈，对大模型模型进行性能分析与优化，投入大模型工具链开发及技术生态的建设。

更新于 2024-05-21杭州