logo of kuaishou

快手【快Star-X实习】大模型推理/训练引擎研发工程师

实习兼职J1020地点:北京状态:招聘

任职要求


1、本科以上学历,电子、自动化、计算机类专业优先;
2、了解分布式系统或高性能计算相关知识,具备良好的系统编程、数据结构算法基础、系统设计能力;
3、熟悉Linux开发环境、熟练使用Pytorch训练框架,掌握 C++/Python编程语言;
4、具有良好的团队合作精神和沟通能力。热爱钻研技术,善于分析、解决工程问题,能够对算法和底层的协同优化起到核心桥梁作用。

加分项:
1、熟悉tensorflowpytorchTensorRT、FasterTransformer等主流推理和训练框架,并有相关优化经验者优先;
2、具备大模型训练、分布式训练、微调经验、HPC基础知识,了解集合通信和CUDA编程,熟悉triton、cutlass、有算子库开发经验者优先;
3、在国际顶级会议/期刊上有相关论文发表优先;
4、有机器学习平台开发和深度学习框架开发等领域开发经验优先。

工作职责


1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等;
2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能。与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能;
3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。
包括英文材料
学历+
分布式系统+
数据结构+
算法+
系统设计+
Linux+
PyTorch+
C+++
Python+
TensorFlow+
TensorRT+
大模型+
HPC+
CUDA+
机器学习+
深度学习+
相关职位

logo of kuaishou
实习J1020

1、参与快手模型训练推理的深度研发,提升模型训练、推理的框架性能; 2、与算法部门合作,为快手大模型定制训练方案,探索大模型的 RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、分析服务器、手机端模型的推理特点,对计算、访存和通讯做出针对性优化; 4、关注前沿技术,跟进业内最新研究进展和应用趋势,提出创新思路和方向。

更新于 2025-05-06
logo of kuaishou
校招J1001

1、参与快手大语言模型、多模态基座模型的训练/推理引擎研发及优化工作; 2、参与快手自研生成式推荐大模型训练全链路开发和优化,以及快手广告、电商、直播、搜索等全域模型的训练全链路研发与优化; 3、设计和优化分布式训练框架,通过混合并行,通信计算overlap、低精度训练等方法解决超长序列、超大规模moe场景下的训练效率问题; 4、参与通用高性能RL框架的开发和优化,包括但不限于高效rollout、高效RL链路调度优化等; 5、通过各种技术手段持续优化性能,降低推理成本,包括但不限于:算子/编译优化、异构推理、模型量化&蒸馏、分布式并行等。

更新于 2025-07-25
logo of kuaishou
实习J1020

1、参与研发业界领先的深度学习编译技术,落地计算优化、显存优化及分布式优化技术到训练框架和推理框架中,赋能深度学习算法落地; 2、XLA 相关编译优化功能开发; 3、结合pytorch/tensorflow等上下游框架适配与集成; 4、异构大模型推理引擎优化,负责调研NV 上各种推理引擎的优化技术,并支持大模型推理各种优化技术在异构硬件上的落地。

更新于 2025-05-14
logo of kuaishou
实习J1020

1、负责依据不同业务场景的特点和新硬件特性,结合系统软硬件栈的整体调优,提出并实施性能优化方案; 2、负责持续跟踪业内软硬件相关领域的技术发展趋势,结合不同业务场景未来需求,开展方案预研以及推广应用工作。 具体包括以下两种场景或者两种之一: 1)AI计算相关场景,例如:大模型训练场景,AIGC、NLP、推荐等常规推理场景; 2)以容器云、大数据计算平台为例的通用计算平台场景。

更新于 2025-04-30