快手大模型推理优化工程师
任职要求
1、熟悉Linux开发环境,良好的系统编程、数据结构、算法基础、系统设计能力、掌握 C++/Python编程语言; 2、熟悉tensorflow、pytorch、TensorRT, FasterTransformer等主流训练和推理框架,并有相关优化经验者优先; 3、熟悉编译优化技术及相关框架,如MLIR、TVM、XLA;有显存优化、算子融合、图优化等实操经验; 4、熟悉CUDA编程,具备较好开发能力,熟悉triton、cutlass、有算子库开发经验者优先; 5、具有良好的团队合作精神和沟通能力,能够对算法和底层的协同优化起到核心桥梁作用。
工作职责
1、参与快手大规模深度学习推理框架的研发与优化,提供低延迟、高吞吐的大模型推理方案; 2、负责底层算子的优化,通过优化访存 pattern、计算提升推理性能; 3、优化推理框架上层调度策略,通过机内、机间的计算调度和通讯优化提升引擎性能; 4、通过量化、投机采样以及稀疏化等方式,提升端到端的 token 吞吐; 5、对推理框架进行设计抽象,满足异构算力芯片的接入需求。
1、大模型推理优化和计算框架的设计和开发工作,提升大模型推理效率; 2、通过量化、并行计算、访存优化等方法,支持单卡、多卡、多机情况下模型推理时延和吞吐效率的提升; 3、进行模型性能分析和调优,识别和解决瓶颈问题,提升模型的推理速度; 4、实施并维护自动化工具和流程,简化模型推理部署过程; 5、跟踪最新的研究进展和技术趋势,提出改进和创新的想法,推动团队技术发展。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责超大规模机器学习推理系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型推理、数据管理、工作流编排等; 3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、存算一体系统、编译优化技术的引入落地; 4、与算法部门深度合作,进行算法与系统的联合优化。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责超大规模机器学习推理系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型推理、数据管理、工作流编排等; 3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、存算一体系统、编译优化技术的引入落地; 4、与算法部门深度合作,进行算法与系统的联合优化。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责超大规模机器学习推理系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关; 2、覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型推理、数据管理、工作流编排等; 3、负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、存算一体系统、编译优化技术的引入落地; 4、与算法部门深度合作,进行算法与系统的联合优化。