logo of sensetime

商汤大模型推理系统研发实习生

实习兼职算法工程地点:北京 | 成都 | 上海状态:招聘

任职要求


1. 在计算机科学、工程或相关领域的本科或研究生学位,计算机基础扎实
2. 掌握PythonC++编程语言,具备Trition/Cute/Tilelang/CUDA编程经验,理解GPU并行计算原理
3. 对大语言模型的优化和高性能计算有浓厚兴趣
4.…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 参与大模型推理系统设计和研究,进行服务层、推理层和算法层的优化探索,实现整体效率提升
2. 进行推理性能分析和优化,实现对gpu,npu等异构硬件,云端等各种场景的高效推理技术
3. 探索融合模态大模型的推理技术方案
4. 强化学习训练中的推理框架优化探索
包括英文材料
学历+
Python+
C+++
还有更多 •••
相关职位

logo of sensetime
实习算法工程

* 参与图像视频生成模型的推理系统的设计与优化,包括前沿模型推理支持,服务调度,推理框架,推理算子,推理算法等 * 跟进并复现业界前沿的图像视频生成模型的压缩推理技术,包括稀疏,量化,蒸馏等 * 进行推理性能分析和优化,寻找推理瓶颈,分析问题来源,设计优化方案等

更新于 2026-01-15北京|上海
logo of xiaohongshu
实习引擎

核心职责 参与小红书万亿级Token量推理系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型推理系统; 探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 参与MaaS系统的国产卡适配,如华为910C、阿里PPU等; 参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。

更新于 2025-11-25北京|上海
logo of horizon
实习软件序列

岗位介绍 我们正在构建下一代 大模型推理平台(LLM Inference Platform),面向 AI Coding、研发效率提升与生产业务智能化等核心场景,提供高性能、可扩展的大模型推理能力。 团队正在结合开源模型与推理生态,在 大规模 GPU 集群上持续优化推理系统的 吞吐 以及单位 Token 推理成本($/Million Tokens)。 岗位职责 - 参与 大模型推理平台的系统研发与架构优化 - 在大规模 GPU 集群环境中优化推理系统的 Throughput、TTFT 和 GPU Utilization - 设计和实现高效推理架构,例如:Prefill / Decode 分离式推理、Continuous / Dynamic Batching、异构推理资源调度 - 构建 分布式 KV Cache 与推理缓存体系,减少重复计算并提升 token generation efficiency 优化推理系统的 单位 Token 计算成本($/Million Tokens) 与集群资源效率

更新于 2026-03-16北京
logo of horizon
校招软件序列

岗位介绍 我们正在构建下一代 大模型推理平台(LLM Inference Platform),面向 AI Coding、研发效率提升与生产业务智能化等核心场景,提供高性能、可扩展的大模型推理能力。 团队正在结合开源模型与推理生态,在 大规模 GPU 集群上持续优化推理系统的 吞吐 以及单位 Token 推理成本($/Million Tokens)。 岗位职责 - 参与 大模型推理平台的系统研发与架构优化 - 在大规模 GPU 集群环境中优化推理系统的 Throughput、TTFT 和 GPU Utilization - 设计和实现高效推理架构,例如:Prefill / Decode 分离式推理、Continuous / Dynamic Batching、异构推理资源调度 - 构建 分布式 KV Cache 与推理缓存体系,减少重复计算并提升 token generation efficiency 优化推理系统的 单位 Token 计算成本($/Million Tokens) 与集群资源效率

更新于 2026-03-16北京