哔哩哔哩【B-UP】AI Infra模型开发工程师(实习)
实习兼职技术类地点:上海状态:招聘
任职要求
1、技术底色: 计算机相关专业,具有较强的系统编程能力,精通 Python 和 C/C++。 2、计算底层: 熟悉 NVIDIA GPU 架构 (Hopper/Ampere/Blackwall),理解显存层次结构、流处理器(SM)工作原理。 3、框架经验: 熟悉 PyTorch 等深度学习框架,具有训练或推理性能优化经验者优先;阅读过 Megatron、Deep…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1. 分布式训练底座 (Training Infra) 框架优化: 负责维护和优化基于 Megatron-LM, FSDP, VeRL的分布式训练框架,通过多维并行策略提高训练吞吐。 算子优化: 参与多模态大模型训练核心算子的设计与优化,包括 Attention、MoE、算子融合等方向,持续提升模型训练效率和硬件利用率。 通信优化: 深入优化 H/NCCL通信库,解决 RDMA/RoCE 网络下的通信瓶颈,提升多机多卡并行效率(DP/PP/TP/CP/EP)。 稳定性保障: 构建自动容错与快速恢复系统(Checkpoint 优化、故障自动检测与接续),确保千卡集群在数月跨度的训练中保持极高可用性。 2. 推理加速与工程化 (Inference Infra) 高性能引擎: 负责基于 vLLM、TensorRT-LLM、SGLang、Triton Inference Server 等推理框架的开发与优化,提升大模型在线服务的吞吐、时延和资源利用率。 算子优化: 参与 Transformer 核心算子的开发与性能优化,包括 Attention、KV Cache、量化推理、算子融合等方向,探索 CUDA/Triton 等高性能实现方案。 推理架构: 参与构建面向大规模生产环境的推理服务体系,支持高并发、低延迟和高可用的模型服务部署与运维。 3. 存储与算力管理 (Storage & Compute) I/O 优化: 优化超大规模数据集的加载速度,解决训练过程中的存储带宽瓶颈(如利用 GPFS, Lustre 或 JuiceFS)。 稳定性保障: 构建大规模集群故障检测、自动恢复与容灾体系,提升训练与推理服务的可靠性、高可用性及运维效率。 资源调度: 构建面向训练与推理场景的 GPU 资源调度体系,支持多租户资源共享、弹性扩缩容、任务优先级管理及异构算力调度,提高集群整体
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
C+
https://www.freecodecamp.org/chinese/news/the-c-beginners-handbook/
本手册遵循二八定律。你将在 20% 的时间内学习 80% 的 C 编程语言。
https://www.youtube.com/watch?v=87SH2Cn0s9A
https://www.youtube.com/watch?v=KJgsSFOSQv0
This course will give you a full introduction into all of the core concepts in the C programming language.
https://www.youtube.com/watch?v=PaPN51Mm5qQ
In this complete C programming course, Dr. Charles Severance (aka Dr. Chuck) will help you understand computer architecture and low-level programming with the help of the classic C Programming language book written by Brian Kernighan and Dennis Ritchie.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
还有更多 •••