快手大模型训推优化工程师
社招全职3-5年D7214地点:北京状态:招聘
任职要求
必备条件: 1、计算机科学、电子工程或相关专业硕士及以上学历,2年以上CUDA/GPU高性能计算开发经验; 2、精通PyTorch/Sglang/vLLM等框架底层实现,熟悉大模型部署与推理优化原理; 3、熟练掌握OpenAI Triton编程,具备算子内核开发经验(如矩阵乘、Attention、Conv等模块优化); 4、熟悉模型量化技术(INT8/FP8/INT4混合精度)优先; 5、对GP…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、负责文生图、文生视频等自研大模型核心算子的开发与性能优化,基于CUDA、OpenAI Triton等工具实现高性能计算加速; 2、针对MaaS平台AI Infra大模型推理场景,研发性能领先业界的推理引擎,通过研发框架优化、量化、算子优化等技术,大幅降低机器成本; 3、深入训练、微调、RL场景,研发前沿的优化技术,提升模型训练吞吐与资源利用率; 4、搭建端到端模型推理流水线,探索多模态生成任务下的算子融合、多种KVCache优化等创新优化手段。
包括英文材料
学历+
CUDA+
https://developer.nvidia.com/blog/even-easier-introduction-cuda/
This post is a super simple introduction to CUDA, the popular parallel computing platform and programming model from NVIDIA.
https://www.youtube.com/watch?v=86FAWCzIe_4
Lean how to program with Nvidia CUDA and leverage GPUs for high-performance computing and deep learning.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
SGLang+
[英文] Install SGLang
https://docs.sglang.ai/get_started/install.html
SGLang is a fast serving framework for large language models and vision language models.
https://github.com/sgl-project/sgl-learning-materials
vLLM+
https://www.newline.co/@zaoyang/ultimate-guide-to-vllm--aad8b65d
vLLM is a framework designed to make large language models faster, more efficient, and better suited for production environments.
https://www.youtube.com/watch?v=Ju2FrqIrdx0
vLLM is a cutting-edge serving engine designed for large language models (LLMs), offering unparalleled performance and efficiency for AI-driven applications.
还有更多 •••
相关职位

社招软研类
1、主导大模型在线推理系统的性能攻坚,构建多节点多GPU的分布式推理架构,实现智能请求调度算法与异构硬件的极致性能调优; 2、研究低bit量化、稀疏化attention等解码加速技术,在保障精度前提下显著降低计算资源消耗; 3、设计高并发场景下的负载均衡方案,构建支持动态扩展的弹性计算架构,优化推理引擎运行时环境,实现毫秒级延迟与高QPS吞吐能力。
更新于 2025-10-09上海

社招3年以上计算机网络技术类
1.算法平台大模型(含LLM)训练和推理优化工作:涵盖PD分离部署、检索增强生成(RAG)、智能代理(Agent)等前沿应用领域,推动技术与业务的深度融合。 2.性能优化:对AI模型训练和推理过程进行性能分析和调优,提升算法执行效率,包括但不限于算法加速、资源调度优化等。 3.工具开发:开发算法研发和部署过程中所需的工具和脚本,提高研发效率,实现算法工程化。 4.技术支持:为AI工程师和研究人员提供技术咨询和支持,帮助他们解决在算法研发过程中遇到的工程问题。 5.跨部门协作:与产品、研发、运维等其他团队协作,确保算法平台的稳定性和可用性。 6.技术研究:跟踪最新的AI工程化技术和趋势,将新技术应用到平台建设中,推动技术创新。
更新于 2025-07-09深圳
社招ACG
-结合LLM技术发展,优化分布式训练和推理框架的性能,各常见模型训推MFU优化到极致状态 -在自研芯片上适配常见的大模型与自驾模型,结合芯片特点做优化,充分发挥自研芯片算力 -探索前沿的训推优化技术,算法、框架、集群协同创新,构建有竞争力的大模型训推系统 -与业务团队协同,理解客户需求,驱动技术创新,业务持续突破
更新于 2025-04-07北京|上海|深圳