快手AI推理优化工程师/专家-大模型
任职要求
1、具备良好的团队协作能力,热爱钻研技术,善于分析、解决工程问题; 2、掌握C++/Python编程语言,熟悉常用数据结构; 3、熟悉深度学习基本知识,熟悉Transformer/Bert网络结构及优化经验更佳; 4、熟悉Pytorch、TensorFlow、ONNX等框架,有二次开发能力或开源社区贡献经历更佳; 5、对NVIDIA GPU有深入理解,熟练掌握TensorRT开发及CUDA编程; 6、拥有以下经验者优先: (1)有异构计算、HPC、编译等领域开发经验; (2)有Nsight System、Nsight Compute、DL Prof、perf等工具使用经验; (3)熟悉TVM/MLIR/XLA等AI编译优化技术更佳。
工作职责
1、利用图优化,编译优化,CPU/GPU优化等技术加速CV/NLP/Speech等AI算法推理,充分挖掘处理器算力,为快手数亿用户提供高效稳定的算法能力输出; 2、追踪业界在异构计算性能优化方面的发展,并进行预研和应用探索; 3、工作内容包括但不限于: (1)CUDA kernel开发; (2)编译优化技术开发; (3)onnx parser开发; (4)训推一体加速库开发; (5)多卡推理技术开发; (6)针对Transformer/bert网络结构性能优化。
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 2、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 3、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。
1、大模型关键技术突破,构建AI应用开发平台核心竞争力,支撑共享引擎大模型业务的快速推进和迭代。 2、洞察业界AI大模型应用开发平台的前沿技术,跟踪业界与学术界最新研究动态,围绕大模型应用的高成功率、高执行效率、低门槛,持续探索和突破大模型应用平台创新技术。 3、深度参与深度学习大模型产品研发,工程优化和应用过程中的技术落地,重点关注大模型部署、对齐、模型评估、推理优化加速等
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责开发和优化字节跳动公司级的大模型推理框架; 2、主要通过GPU、CUDA性能优化的手段,结合线上实际情况,打造业界领先的高性能LLM推理引擎; 3、负责机器学习系统前瞻技术的调研和引入; 4、与算法部门深度合作,进行算法与系统的联合优化。