logo of kuaishou

快手【留用实习】大模型训练引擎性能优化工程师

实习兼职J1020地点:北京状态:招聘

任职要求


1.本科及以上学历,计算机科学、软件工程或相关专业优先,具备扎实的计算机基础知识。
2.熟练掌握C++Python编程语言,熟悉Linux开发环境,具备良好的代码编写习惯。
3.了解深度学习框架(如PyTorchTensorFlow等),熟悉Transformer架构及其优化技术。
4.具备使用性能分析工具(如nsys、torch profiler等)的经验,能够快速定位并解决性能问题。
5.具备良好的团队合作精神和沟通能力,能够快速融入团队并高效协作。
6.具备较强的学习能力和抗压能力,能够在快节奏的环境中成长。

加分项:
1.具备CUDA编程能力,熟悉GPU加速技术。
2.有大模型训练或分布式系统开发经验。
3.在相关领域发表过学术论文或参与过开源项目。

工作职责


1.性能分析与优化:使用先进的性能分析工具(如nsys、torch profiler等),对大模型训练引擎进行性能剖析,定位瓶颈并提出优化方案。
2.分布式训练优化:深入研究分布式训练技术,探索并实现高效的并行策略,提升大规模模型训练的速度与效率。
3.代码优化与重构:参与训练引擎代码的优化与重构工作,提升代码质量与运行效率,确保系统的稳定性和可扩展性。
4.前沿技术研究:跟踪大模型训练领域的最新研究成果,复现并集成先进的优化技术,推动训练引擎的性能提升。
包括英文材料
学历+
C+++
Python+
Linux+
深度学习+
PyTorch+
TensorFlow+
Transformer+
CUDA+
大模型+
分布式系统+
相关职位

logo of kuaishou
实习J1014

1、参与快手大规模深度学习推理引擎、大模型训练解决方案的研发与优化,包括大模型推理、模型训练框架、微调平台等; 2、参与底层算子的优化、通过优化访存pattern、计算提升推理性能,与算法部门合作,为公司大模型定制训练方案,探索RLHF、MoE、多模态、longcontext等前沿方向,提升训练性能; 3、优化推理框架上层调度策略,通过机内、机间的计算任务调度和通讯优化提升引擎性能;优化现有大语言模型相关工具和平台,提高模型训练、维护效率,降低成本,提升训练服务稳定性。

更新于 2025-05-23
logo of kuaishou
实习J1020

1、负责依据不同业务场景的特点和新硬件特性,结合系统软硬件栈的整体调优,提出并实施性能优化方案; 2、负责持续跟踪业内软硬件相关领域的技术发展趋势,结合不同业务场景未来需求,开展方案预研以及推广应用工作。 具体包括以下两种场景或者两种之一: 1)AI计算相关场景,例如:大模型训练场景,AIGC、NLP、推荐等常规推理场景; 2)以容器云、大数据计算平台为例的通用计算平台场景。

更新于 2025-03-11
logo of kuaishou
实习J1020

1、负责依据不同业务场景的特点和新硬件特性,结合系统软硬件栈的整体调优,提出并实施性能优化方案; 2、负责持续跟踪业内软硬件相关领域的技术发展趋势,结合不同业务场景未来需求,开展方案预研以及推广应用工作; 具体包括以下三种场景或者三种之一: 1)以容器云、大数据计算平台为例的通用计算平台场景; 2)AI计算相关场景,例如:大模型训练场景,AIGC、NLP、推荐等常规推理场景; 3)结构化以及非结构化数据存储场景。

更新于 2025-03-04
logo of kuaishou
实习J1020

1、参与研发业界领先的深度学习编译技术,落地计算优化、显存优化及分布式优化技术到训练框架和推理框架中,赋能深度学习算法落地; 2、XLA 相关编译优化功能开发; 3、结合pytorch/tensorflow等上下游框架适配与集成; 4、异构大模型推理引擎优化,负责调研NV 上各种推理引擎的优化技术,并支持大模型推理各种优化技术在异构硬件上的落地。

更新于 2025-05-14