logo of kuaishou

快手AI推理系统开发实习生

实习兼职D11722地点:北京状态:招聘

任职要求


1、计算机相关专业,熟悉Linux开发环境,熟练掌握 C++/Python编程语言,熟悉常见算法与数据结构;
2、熟悉深度学习相关基础知识,了解Transformer类网…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与研发业内领先的低延迟、高吞吐的大模型推理优化方案,优化目标包括视频生成大模型、多模态大模型、语言大模型等;
2、参与调研并复现大模型推理优化方向最新论文,具体方向包括高性能算子开发、大模型量化、分布式大模型并行推理等;
3、参与组内服务化框架开发,提升大模型服务部署效率。
包括英文材料
Linux+
C+++
Python+
算法+
还有更多 •••
相关职位

logo of kuaishou
实习D11722

1、参与研发业内领先的低延迟、高吞吐的大模型推理优化方案,优化目标包括视频生成大模型、多模态大模型、语言大模型等; 2、参与调研并复现大模型推理优化方向最新论文,具体方向包括高性能算子开发、大模型量化、分布式大模型并行推理等; 3、参与组内服务化框架开发,提升大模型服务部署效率。

更新于 2025-10-24北京
logo of horizon
实习算法序列

1.探索基于大语言模型(LLM)的Coding Agent开发范式,推动**AI驱动的算子开发流程(Human + Agent协同)**落地 2.使用AI工具(如 Claude Code / Cursor / 自研Agent)参与高性能算子开发,包括: a.GPU方向:CUDA / C++算子开发与性能优化(访存、并行度、kernel fusion等) b.BPU方向:地平线BPU算子开发与优化(编译约束、算子映射、数据流优化等) 3.参与构建AI辅助算子开发体系,包括: a.Prompt设计与Agent workflow搭建 b.自动代码生成、自动调优、自动benchmark与回归验证 c.结合profiling工具进行性能分析与优化闭环 4.参与大模型推理系统中的关键算子优化(Attention / KV Cache / MoE等) 5.参与跨硬件平台的算子适配与优化(GPU ↔ BPU) 6.沉淀技术文档与最佳实践(CLAUDE.md、Skill等)

更新于 2026-04-02北京|南京|上海
logo of horizon
实习软件序列

岗位介绍 我们正在构建下一代 大模型推理平台(LLM Inference Platform),面向 AI Coding、研发效率提升与生产业务智能化等核心场景,提供高性能、可扩展的大模型推理能力。 团队正在结合开源模型与推理生态,在 大规模 GPU 集群上持续优化推理系统的 吞吐 以及单位 Token 推理成本($/Million Tokens)。 岗位职责 - 参与 大模型推理平台的系统研发与架构优化 - 在大规模 GPU 集群环境中优化推理系统的 Throughput、TTFT 和 GPU Utilization - 设计和实现高效推理架构,例如:Prefill / Decode 分离式推理、Continuous / Dynamic Batching、异构推理资源调度 - 构建 分布式 KV Cache 与推理缓存体系,减少重复计算并提升 token generation efficiency 优化推理系统的 单位 Token 计算成本($/Million Tokens) 与集群资源效率

更新于 2026-03-16北京
logo of horizon
校招软件序列

岗位介绍 我们正在构建下一代 大模型推理平台(LLM Inference Platform),面向 AI Coding、研发效率提升与生产业务智能化等核心场景,提供高性能、可扩展的大模型推理能力。 团队正在结合开源模型与推理生态,在 大规模 GPU 集群上持续优化推理系统的 吞吐 以及单位 Token 推理成本($/Million Tokens)。 岗位职责 - 参与 大模型推理平台的系统研发与架构优化 - 在大规模 GPU 集群环境中优化推理系统的 Throughput、TTFT 和 GPU Utilization - 设计和实现高效推理架构,例如:Prefill / Decode 分离式推理、Continuous / Dynamic Batching、异构推理资源调度 - 构建 分布式 KV Cache 与推理缓存体系,减少重复计算并提升 token generation efficiency 优化推理系统的 单位 Token 计算成本($/Million Tokens) 与集群资源效率

更新于 2026-03-16北京