logo of kuaishou

快手【快Star-X实习】大模型推理/训练优化工程师

实习兼职J1020地点:北京 | 杭州状态:招聘

任职要求


1、硕士及以上学历,计算机、电子、自动化等专业优先;
2、熟悉python/C++,熟悉linux使用,有扎实的算法数据结构基础;
3、有较强的自驱力和学习力,有严谨的科研思维,沟通良好擅长与人合作;
4、了解AI infra 整体技术栈,有大模型相关训练或推理优化实战经验;有vLLMTensorRT-LLM、MLC-LLMTensorflowPyTorch等框架之一的实践经验。

加分项:
1、熟悉CUDA 或 ROCM,熟悉Nsight System/ Nsight Compute 工具的使用,有 GPU 或 ASIC 高性能算子开发经验;
2、熟悉深度学习编译优化或异构硬件,有 XLA/ TVM /MLIR 开发、优化经验,熟悉pass编写或代码生成原理和实践;或有传统编译器开发经验,熟悉LLVM原理和使用;
3、有相关领域顶会paper发表;
4、有二次开发能力或开源社区贡献经历。

工作职责


1、参与大模型推理/训练优化。通过研发业界领先的AI Compiler 技术,支撑搜推场景在GPU上的训练计算性能优化;支持大模型推理优化技术在异构硬件上的落地;
2、参与各种大模型推理所需的功能性开发任务;相关编译优化功能开发,以图优化、算子融合、GPU高性能算子开发及自动Codegen等技术手段不断推高在不同卡型上的计算性能极限;
3、参与支持日常的大模型推理服务部署,参与内部日常提效工具的研发。
包括英文材料
学历+
Python+
C+++
Linux+
算法+
数据结构+
大模型+
vLLM+
TensorRT+
TensorFlow+
PyTorch+
CUDA+
Nsight+
深度学习+
LLVM+
相关职位

logo of kuaishou
实习J1020

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能。与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。

更新于 2025-06-04
logo of kuaishou
实习J1020

1、参与研发业界领先的深度学习编译技术,落地计算优化、显存优化及分布式优化技术到训练框架和推理框架中,赋能深度学习算法落地; 2、XLA 相关编译优化功能开发; 3、结合pytorch/tensorflow等上下游框架适配与集成; 4、异构大模型推理引擎优化,负责调研NV 上各种推理引擎的优化技术,并支持大模型推理各种优化技术在异构硬件上的落地。

更新于 2025-05-14
logo of kuaishou
实习J1020

1、参与快手模型训练推理的深度研发,提升模型训练、推理的框架性能; 2、与算法部门合作,为快手大模型定制训练方案,探索大模型的 RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、分析服务器、手机端模型的推理特点,对计算、访存和通讯做出针对性优化; 4、关注前沿技术,跟进业内最新研究进展和应用趋势,提出创新思路和方向。

更新于 2025-05-06
logo of kuaishou
实习J1020

1、负责依据不同业务场景的特点和新硬件特性,结合系统软硬件栈的整体调优,提出并实施性能优化方案; 2、负责持续跟踪业内软硬件相关领域的技术发展趋势,结合不同业务场景未来需求,开展方案预研以及推广应用工作。 具体包括以下两种场景或者两种之一: 1)AI计算相关场景,例如:大模型训练场景,AIGC、NLP、推荐等常规推理场景; 2)以容器云、大数据计算平台为例的通用计算平台场景。

更新于 2025-04-30