logo of kuaishou

快手大模型推理优化工程师

社招全职3-5年D11722地点:北京状态:招聘

任职要求


1、熟悉Linux开发环境,良好的系统编程、数据结构算法基础、系统设计能力、掌握 C++/Python编程语言;
2、熟悉tensorflowpytorchTensorRT, FasterTransformer等主流训练和推理框架,并有相关优化经验者优先;
3、熟悉编译优化技术及相关框架,如MLIR、TVM、XLA;有显存优化、算子融合、图优化等实操经验;
4、熟悉CUDA编程,具备较好开发能力,熟悉triton、cutlass、有算子库开发经验者优先;
5、具有良好的团队合作精神和沟通能力,能够对算法和底层的协同优化起到核心桥梁作用。

工作职责


1、参与快手大规模深度学习推理框架的研发与优化,提供低延迟、高吞吐的大模型推理方案;
2、负责底层算子的优化,通过优化访存 pattern、计算提升推理性能;
3、优化推理框架上层调度策略,通过机内、机间的计算调度和通讯优化提升引擎性能;
4、通过量化、投机采样以及稀疏化等方式,提升端到端的 token 吞吐;
5、对推理框架进行设计抽象,满足异构算力芯片的接入需求。
包括英文材料
Linux+
数据结构+
算法+
系统设计+
C+++
Python+
TensorFlow+
PyTorch+
TensorRT+
CUDA+
相关职位

logo of mi
社招4年以上A179886

1、大模型推理优化和计算框架的设计和开发工作,提升大模型推理效率; 2、通过量化、并行计算、访存优化等方法,支持单卡、多卡、多机情况下模型推理时延和吞吐效率的提升; 3、进行模型性能分析和调优,识别和解决瓶颈问题,提升模型的推理速度; 4、实施并维护自动化工具和流程,简化模型推理部署过程; 5、跟踪最新的研究进展和技术趋势,提出改进和创新的想法,推动团队技术发展。

更新于 2025-05-13
logo of bytedance
校招A04209

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责超大规模机器学习推理系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型推理、数据管理、工作流编排等; 3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、存算一体系统、编译优化技术的引入落地; 4、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2025-04-21
logo of bytedance
校招A150980

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责超大规模机器学习推理系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型推理、数据管理、工作流编排等; 3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、存算一体系统、编译优化技术的引入落地; 4、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2025-04-21
logo of bytedance
校招A114697

团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责超大规模机器学习推理系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型推理、数据管理、工作流编排等; 3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、存算一体系统、编译优化技术的引入落地; 4、与算法部门深度合作,进行算法与系统的联合优化。

更新于 2025-04-21