快手大模型训推优化实习岗
任职要求
1、计算机科学、电子工程或相关专业硕士及以上学历,2年以上CUDA/GPU高性能计算开发经验; 2、精通PyTorch/Sglang/vLLM等框架底层实现,熟悉大模型部署与推理优化原理; 3、熟练掌握OpenAI Triton编程,具备算子内核开发经验(如矩阵乘、Attention、Conv等模块优化); 4、熟悉模型量化技术(INT8/FP8/INT4混合精度)优先; 5、对GPU硬件架构…
工作职责
1、负责文生图、文生视频等自研大模型核心算子的自研开发与性能优化,基于CUDA、OpenAI Triton等工具实现高性能计算加速; 2、针对AI Infra大模型推理与训练场景,优化混合精度量化策略,设计低比特计算、稀疏化压缩等方案,提升模型部署效率; 3、深入GPU/Tensor Core硬件架构,优化显存管理、计算图调度及分布式通信,提升模型训练吞吐与资源利用率; 4、搭建端到端模型推理流水线,探索多模态生成任务下的算子融合、动态编译等创新优化手段; 5、协同算法团队完成模型轻量化落地,提供量化感知训练(QAT)、模型剪枝等技术支持。
1、负责文生图、文生视频等自研大模型核心算子的自研开发与性能优化,基于CUDA、OpenAI Triton等工具实现高性能计算加速; 2、针对AI Infra大模型推理与训练场景,优化混合精度量化策略,设计低比特计算、稀疏化压缩等方案,提升模型部署效率; 3、深入GPU/Tensor Core硬件架构,优化显存管理、计算图调度及分布式通信,提升模型训练吞吐与资源利用率; 4、搭建端到端模型推理流水线,探索多模态生成任务下的算子融合、动态编译等创新优化手段; 5、协同算法团队完成模型轻量化落地,提供量化感知训练(QAT)、模型剪枝等技术支持。
-参与计算机视觉、文档处理分析相关技术研发,包括但不限于OCR文字识别、文档结构化、LLM训推等任务 -参与多模态大模型的算法方案调研、日常训练、微调与效果优化,确保模型训练的稳定性和效果 -支持大模型在各种实际业务中的落地,包括但不限于信息抽取、审查、图表解析等,确保其在真实场景中的有效应用 -参与大模型的日常评估和开发工作,推动其持续改进和性能提升,提高训练和推理效率 -与团队成员紧密合作,协同解决开发过程中遇到的问题和技术挑战
负责饿了么深度模型和超大规模训练推理,支持万亿规模的稠密及稀疏训练推理优化,结合分布式系统、高性能计算、异构计算,探索性能边界,支撑超大规模模型的训练及推理部署。我们关注超大规模模型训练及推理系统,为深度学习模型提供算力基座。 【岗位职责】 1、支持百亿-万亿规模的稠密模型、稀疏模型训练,在千卡集群上,实现多种分布式训练架构,以及强化学习训推一体复用等技术,消除各类大规模模型分布式训练的瓶颈; 2、支持大规模深度模型的推理部署性能优化,通过高性能计算、分布式计算、异构计算、编译优化等手段,在千卡集群上,解决大尺寸模型的推理性能瓶颈; 3、深入工程和算法协同,结合大规模推荐、大语言、多模态算法,探索适合业务的创新训练范式。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责机器学习训练和推理系统的研发与性能优化,包括但不限于:超大模型计算性能优化、千卡训练集群调优、分布式推理系统、大规模推理流量调度等; 2、负责解决大规模AI系统中高并发、高可靠性、高可扩展性等技术难关,支撑公司内外千万客户流量需求; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于分布式训推系统、子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等; 5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU 超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,分析性能瓶颈,通过软硬结合提升模型训推效率,支持AI工具链和技术生态建设,推动公司AI关键业务发展。