快手AI推理系统开发实习生

实习兼职D117222025-10-24地点：北京状态：招聘

扫码手机上打开

任职要求

1、计算机相关专业，熟悉Linux开发环境，熟练掌握 C++/Python编程语言，熟悉常见算法与数据结构；
2、熟悉深度学习相关基础知识，了解Transformer类网…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、参与研发业内领先的低延迟、高吞吐的大模型推理优化方案，优化目标包括视频生成大模型、多模态大模型、语言大模型等；
2、参与调研并复现大模型推理优化方向最新论文，具体方向包括高性能算子开发、大模型量化、分布式大模型并行推理等；
3、参与组内服务化框架开发，提升大模型服务部署效率。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

C+++

Python+

算法+

还有更多 •••

登录查看完整学习资料

相关职位

阿里云智能-机器学习平台研发专家-AI推理系统开发工程师

社招3年以上云智能集团

1. 参与大模型推理系统的架构设计与开发，包括推理网关、请求调度、流量路由等核心模块的建设 2. 负责推理引擎（vLLM/SGLang等）的深度优化与定制化开发，提升推理吞吐与延迟表现 3. 参与PD分离（Prefill-Decode）架构的设计与开发，优化Prefill与Decode阶段的资源分配与协同调度 4. 负责KV Cache存储与管理系统开发，包括KV Cache迁移、共享、淘汰策略的设计与实现 5. 参与模型分发系统开发，支持大模型在多节点间的高效分发与加载 6. 基于线上监控与用户反馈，持续优化推理链路的性能、稳定性与成本效率

更新于 2026-07-09北京|杭州

AI 推理系统工程师

社招2年以上程序&技术类

负责 AI 模型在多硬件平台的生产级推理部署、性能调优与稳定性保障，与算法团队紧密协作，输出最优部署方案。核心职责： 1. 模型部署：负责 LLM、CV、语音等多类模型的推理服务化部署，覆盖 NVIDIA（CUDA / TensorRT）、AMD（ROCm）及国产卡（昇腾 CANN、寒武纪、燧原、摩尔线程等）硬件平台。 2. 推理引擎选型与调优：能基于业务场景（吞吐 / 时延 / 成本）对比 TensorRT、vLLM、Triton、SGlang 等引擎，输出选型与调优方案。 3. 性能建模与分析：基于 Roofline 模型、计算 / 访存比、并行策略、KV Cache、Continuous Batching 等进行量化分析，定位瓶颈并给出优化建议。 4. Benchmark 体系：搭建离线 / 在线压测与回归测试框架，输出量化评估报告。 5. 线上稳定性：推理服务监控、告警、异常排查与性能回归治理。 6. 跨团队协作：对接算法团队，理解模型结构、算子特性与精度约束，将工程约束前置反馈到模型设计与训练环节。

上海

AI推理平台-大模型推理系统工程师-LLM

社招3年以上技术类-开发

本岗位隶属于我们是阿里巴巴大模型推理团队，负责生成式 AI 领域（主要是图像生成和LLM）的内部产品、训练推理服务系统建设和维护，为淘宝、天猫、聚划算、优酷、闲鱼等多个集团业务部门提供强有力的技术支撑和底层服务能力。主要工作内容如下： 1. 负责设计开发高性能大模型推理引擎；结合流量调度、并行、Cache 等方法构建大规模分布式模型服务系统。 2. 融合业界前沿的算法工程理论，基于量化、动态剪枝等有损方法进行极致的模型加速和成本优化。 3. 结合数据、算法和工程，协同构建 AI Infra 平台，为生成式 AI 提供端到端解决方案，推动业务创新与实践应用。

更新于 2026-07-28北京|杭州

AI大模型推理系统研发工程师实习生

实习引擎

核心职责参与小红书万亿级Token量推理系统构建，包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向，共同打造国内领先的大模型推理系统；探索负载感知的推理系统流量调度算法，如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等，持续提升MaaS系统的稳定性、成本效益；探索并跟进业界开源SOTA模型，如Qwen系列、DeepSeek系列，多维度评估模型效果并建立相关的准入体系，及时上架到MaaS系统；参与MaaS系统的国产卡适配，如华为910C、阿里PPU等；参与攻克大规模分布式推理系统带来的复杂挑战，通过弹性调度、容量规划、链路压测等手段提升系统健壮性，确保平台能够弹性扩展，支撑业务的飞速增长。

更新于 2025-11-25北京|上海