商汤大模型推理系统研发实习生

实习兼职算法工程2026-01-15地点：北京 | 成都 | 上海状态：招聘

扫码手机上打开

任职要求

1. 在计算机科学、工程或相关领域的本科或研究生学位，计算机基础扎实
2. 掌握Python和C++编程语言，具备Trition/Cute/Tilelang/CUDA编程经验，理解GPU并行计算原理
3. 对大语言模型的优化和高性能计算有浓厚兴趣
4.…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 参与大模型推理系统设计和研究，进行服务层、推理层和算法层的优化探索，实现整体效率提升
2. 进行推理性能分析和优化，实现对gpu，npu等异构硬件，云端等各种场景的高效推理技术
3. 探索融合模态大模型的推理技术方案
4. 强化学习训练中的推理框架优化探索

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Python+

C+++

还有更多 •••

登录查看完整学习资料

相关职位

图像视频生成推理系统研发实习生

实习算法工程

* 参与图像视频生成模型的推理系统的设计与优化，包括前沿模型推理支持，服务调度，推理框架，推理算子，推理算法等 * 跟进并复现业界前沿的图像视频生成模型的压缩推理技术，包括稀疏，量化，蒸馏等 * 进行推理性能分析和优化，寻找推理瓶颈，分析问题来源，设计优化方案等

更新于 2026-01-15北京|上海

AI大模型推理系统研发工程师实习生

实习引擎

核心职责参与小红书万亿级Token量推理系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型推理系统；探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益；探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统；参与MaaS系统的国产卡适配，如华为910C、阿里PPU等；参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2025-11-25北京|上海

模型推理平台实习生

实习软件序列

岗位介绍我们正在构建下一代大模型推理平台（LLM Inference Platform），面向 AI Coding、研发效率提升与生产业务智能化等核心场景，提供高性能、可扩展的大模型推理能力。团队正在结合开源模型与推理生态，在大规模 GPU 集群上持续优化推理系统的吞吐以及单位 Token 推理成本（$/Million Tokens）。岗位职责 - 参与大模型推理平台的系统研发与架构优化 - 在大规模 GPU 集群环境中优化推理系统的 Throughput、TTFT 和 GPU Utilization - 设计和实现高效推理架构，例如：Prefill / Decode 分离式推理、Continuous / Dynamic Batching、异构推理资源调度 - 构建分布式 KV Cache 与推理缓存体系，减少重复计算并提升 token generation efficiency 优化推理系统的单位 Token 计算成本（$/Million Tokens）与集群资源效率

更新于 2026-03-16北京

模型推理平台实习生

校招软件序列

更新于 2026-03-16北京