logo of bilibili

哔哩哔哩【B-UP】AI Infra模型开发工程师(实习)

实习兼职技术类地点:上海状态:招聘

任职要求


1、技术底色: 计算机相关专业,具有较强的系统编程能力,精通 PythonC/C++。
2、计算底层: 熟悉 NVIDIA GPU 架构 (Hopper/Ampere/Blackwall),理解显存层次结构、流处理器(SM)工作原理。
3、框架经验: 熟悉 PyTorch 等深度学习框架,具有训练或推理性能优化经验者优先;阅读过 Megatron、Deep…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 分布式训练底座 (Training Infra)
框架优化: 负责维护和优化基于 Megatron-LM, FSDP, VeRL的分布式训练框架,通过多维并行策略提高训练吞吐。
算子优化: 参与多模态大模型训练核心算子的设计与优化,包括 Attention、MoE、算子融合等方向,持续提升模型训练效率和硬件利用率。
通信优化: 深入优化 H/NCCL通信库,解决 RDMA/RoCE 网络下的通信瓶颈,提升多机多卡并行效率(DP/PP/TP/CP/EP)。
稳定性保障: 构建自动容错与快速恢复系统(Checkpoint 优化、故障自动检测与接续),确保千卡集群在数月跨度的训练中保持极高可用性。

2. 推理加速与工程化 (Inference Infra)
高性能引擎: 负责基于 vLLM、TensorRT-LLM、SGLang、Triton Inference Server 等推理框架的开发与优化,提升大模型在线服务的吞吐、时延和资源利用率。
算子优化: 参与 Transformer 核心算子的开发与性能优化,包括 Attention、KV Cache、量化推理、算子融合等方向,探索 CUDA/Triton 等高性能实现方案。
推理架构: 参与构建面向大规模生产环境的推理服务体系,支持高并发、低延迟和高可用的模型服务部署与运维。

3. 存储与算力管理 (Storage & Compute)
I/O 优化: 优化超大规模数据集的加载速度,解决训练过程中的存储带宽瓶颈(如利用 GPFS, Lustre 或 JuiceFS)。
稳定性保障: 构建大规模集群故障检测、自动恢复与容灾体系,提升训练与推理服务的可靠性、高可用性及运维效率。
资源调度: 构建面向训练与推理场景的 GPU 资源调度体系,支持多租户资源共享、弹性扩缩容、任务优先级管理及异构算力调度,提高集群整体
包括英文材料
Python+
C+
C+++
PyTorch+
还有更多 •••