logo of kuaishou

快手大模型训推优化实习岗

实习兼职D7214地点:北京状态:招聘

任职要求


1、计算机科学、电子工程或相关专业硕士及以上学历,2年以上CUDA/GPU高性能计算开发经验;
2、精通PyTorch/Sglang/vLLM等框架底层实现,熟悉大模型部署与推理优化原理;
3、熟练掌握OpenAI Triton编程,具备算子内核开发经验(如矩阵乘、Attention、Conv等模块优化);
4、熟悉模型量化技术(INT8/FP8/INT4混合精度)优先;
5、对GPU硬件架构…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责文生图、文生视频等自研大模型核心算子的自研开发与性能优化,基于CUDA、OpenAI Triton等工具实现高性能计算加速;
2、针对AI Infra大模型推理与训练场景,优化混合精度量化策略,设计低比特计算、稀疏化压缩等方案,提升模型部署效率;
3、深入GPU/Tensor Core硬件架构,优化显存管理、计算图调度及分布式通信,提升模型训练吞吐与资源利用率;
4、搭建端到端模型推理流水线,探索多模态生成任务下的算子融合、动态编译等创新优化手段;
5、协同算法团队完成模型轻量化落地,提供量化感知训练(QAT)、模型剪枝等技术支持。
包括英文材料
学历+
CUDA+
PyTorch+
vLLM+
大模型+
还有更多 •••
相关职位

logo of kuaishou
实习D7214

1、负责文生图、文生视频等自研大模型核心算子的自研开发与性能优化,基于CUDA、OpenAI Triton等工具实现高性能计算加速; 2、针对AI Infra大模型推理与训练场景,优化混合精度量化策略,设计低比特计算、稀疏化压缩等方案,提升模型部署效率; 3、深入GPU/Tensor Core硬件架构,优化显存管理、计算图调度及分布式通信,提升模型训练吞吐与资源利用率; 4、搭建端到端模型推理流水线,探索多模态生成任务下的算子融合、动态编译等创新优化手段; 5、协同算法团队完成模型轻量化落地,提供量化感知训练(QAT)、模型剪枝等技术支持。

更新于 2025-09-24北京
logo of oppo
校招AI/算法类

上海方向: 1. 开发和优化大模型推理系统。研究面向大语言模型、多模态模型、视觉生成模型的推理加速技术,不限于并行解码、稀疏注意力、采样优化等技术方向。 2. 跟踪学术界和工业界的最新推理加速技术,进行分析和优化,推进落地。 3. 进行大模型推理加速技术创新,发表高水平论文。 【岗位资源】 1. 真实大模型推理加速场景需求、AI大模型推理系统、计算资源 2. 与知名高校资深老师团队科研合作,提供例行科研沟通合作机会。 3. 业界资深研究员带队技术探索、落地、论文写作发表。 深圳方向: 1. 负责视觉类大模型训练与推理框架的研究与开发,支撑视觉多模态大模型训推加速。 2. 负责视觉类大模型推理引擎在GPU/TPU/PPU/NPU等异构卡上的适配与优化,研发高性能计算引擎技术。

更新于 2025-07-14深圳|上海
logo of bytedance
实习A185540C

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责机器学习训练和推理系统的研发与性能优化,包括但不限于:超大模型计算性能优化、千卡训练集群调优、分布式推理系统、大规模推理流量调度等; 2、负责解决大规模AI系统中高并发、高可靠性、高可扩展性等技术难关,支撑公司内外千万客户流量需求; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于分布式训推系统、子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等; 5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU 超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,分析性能瓶颈,通过软硬结合提升模型训推效率,支持AI工具链和技术生态建设,推动公司AI关键业务发展。

更新于 2025-02-14杭州
logo of bytedance
实习A180875

ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:Data AML是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML还在AI for Science,科学计算等领域做一些前沿研究。 1、负责机器学习训练和推理系统的研发与性能优化,包括但不限于:超大模型计算性能优化、千卡训练集群调优、分布式推理系统、大规模推理流量调度等; 2、负责解决大规模AI系统中高并发、高可靠性、高可扩展性等技术难关,支撑公司内外千万客户流量需求; 3、负责大模型训练和推理前瞻性技术架构的调研和引入,技术方案不限于分布式训推系统、子图匹配、编译优化、模型量化等; 4、负责异构硬件的引入与训练推理框架的集成,包括但不限于GPU、NPU、TPU等; 5、面向全球多地域超大规模GPU算力集群,通过弹性调度、GPU 超卖、任务编排等方式不断提升算力利用率; 6、与算法部门深度合作,分析性能瓶颈,通过软硬结合提升模型训推效率,支持AI工具链和技术生态建设,推动公司AI关键业务发展。

更新于 2025-02-14上海