快手大模型训推优化实习岗

实习兼职D72142025-09-02地点：北京状态：招聘

扫码手机上打开

任职要求

1、计算机科学、电子工程或相关专业硕士及以上学历，2年以上CUDA/GPU高性能计算开发经验；
2、精通PyTorch/Sglang/vLLM等框架底层实现，熟悉大模型部署与推理优化原理；
3、熟练掌握OpenAI Triton编程，具备算子内核开发经验（如矩阵乘、Attention、Conv等模块优化）；
4、熟悉模型量化技术（INT8/FP8/INT4混合精度）优先；
5、对GPU硬件架构…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、负责文生图、文生视频等自研大模型核心算子的自研开发与性能优化，基于CUDA、OpenAI Triton等工具实现高性能计算加速；
2、针对AI Infra大模型推理与训练场景，优化混合精度量化策略，设计低比特计算、稀疏化压缩等方案，提升模型部署效率；
3、深入GPU/Tensor Core硬件架构，优化显存管理、计算图调度及分布式通信，提升模型训练吞吐与资源利用率；
4、搭建端到端模型推理流水线，探索多模态生成任务下的算子融合、动态编译等创新优化手段；
5、协同算法团队完成模型轻量化落地，提供量化感知训练（QAT）、模型剪枝等技术支持。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

CUDA+

PyTorch+

vLLM+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

大模型训推优化实习岗

实习D7214

1、负责文生图、文生视频等自研大模型核心算子的自研开发与性能优化，基于CUDA、OpenAI Triton等工具实现高性能计算加速； 2、针对AI Infra大模型推理与训练场景，优化混合精度量化策略，设计低比特计算、稀疏化压缩等方案，提升模型部署效率； 3、深入GPU/Tensor Core硬件架构，优化显存管理、计算图调度及分布式通信，提升模型训练吞吐与资源利用率； 4、搭建端到端模型推理流水线，探索多模态生成任务下的算子融合、动态编译等创新优化手段； 5、协同算法团队完成模型轻量化落地，提供量化感知训练（QAT）、模型剪枝等技术支持。

更新于 2025-09-24北京

AI研究员（推理加速）

校招AI/算法类

上海方向： 1. 开发和优化大模型推理系统。研究面向大语言模型、多模态模型、视觉生成模型的推理加速技术，不限于并行解码、稀疏注意力、采样优化等技术方向。 2. 跟踪学术界和工业界的最新推理加速技术，进行分析和优化，推进落地。 3. 进行大模型推理加速技术创新，发表高水平论文。【岗位资源】 1. 真实大模型推理加速场景需求、AI大模型推理系统、计算资源 2. 与知名高校资深老师团队科研合作，提供例行科研沟通合作机会。 3. 业界资深研究员带队技术探索、落地、论文写作发表。深圳方向： 1. 负责视觉类大模型训练与推理框架的研究与开发，支撑视觉多模态大模型训推加速。 2. 负责视觉类大模型推理引擎在GPU/TPU/PPU/NPU等异构卡上的适配与优化，研发高性能计算引擎技术。

更新于 2025-07-14深圳|上海

高性能计算研发实习生-Data AML

实习A185540C

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：Data AML是字节跳动公司的机器学习中台，为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力，并在这些业务的问题上研究一些具有通用性和创新性的算法。同时，也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外，AML还在AI for Science，科学计算等领域做一些前沿研究。 1、负责机器学习训练和推理系统的研发与性能优化，包括但不限于：超大模型计算性能优化、千卡训练集群调优、分布式推理系统、大规模推理流量调度等； 2、负责解决大规模AI系统中高并发、高可靠性、高可扩展性等技术难关，支撑公司内外千万客户流量需求； 3、负责大模型训练和推理前瞻性技术架构的调研和引入，技术方案不限于分布式训推系统、子图匹配、编译优化、模型量化等； 4、负责异构硬件的引入与训练推理框架的集成，包括但不限于GPU、NPU、TPU等； 5、面向全球多地域超大规模GPU算力集群，通过弹性调度、GPU 超卖、任务编排等方式不断提升算力利用率； 6、与算法部门深度合作，分析性能瓶颈，通过软硬结合提升模型训推效率，支持AI工具链和技术生态建设，推动公司AI关键业务发展。

更新于 2025-02-14杭州

高性能计算研发实习生-Data AML

实习A180875

更新于 2025-02-14上海