哔哩哔哩【B-UP】AI Infra模型开发工程师（实习）

实习兼职技术类2026-06-24地点：上海状态：招聘

扫码手机上打开

任职要求

1、技术底色： 计算机相关专业，具有较强的系统编程能力，精通 Python 和 C/C++。
2、计算底层： 熟悉 NVIDIA GPU 架构 (Hopper/Ampere/Blackwall)，理解显存层次结构、流处理器（SM）工作原理。
3、框架经验： 熟悉 PyTorch 等深度学习框架，具有训练或推理性能优化经验者优先；阅读过 Megatron、Deep…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1. 分布式训练底座 (Training Infra)
框架优化： 负责维护和优化基于 Megatron-LM, FSDP, VeRL的分布式训练框架，通过多维并行策略提高训练吞吐。
算子优化： 参与多模态大模型训练核心算子的设计与优化，包括 Attention、MoE、算子融合等方向，持续提升模型训练效率和硬件利用率。
通信优化： 深入优化 H/NCCL通信库，解决 RDMA/RoCE 网络下的通信瓶颈，提升多机多卡并行效率（DP/PP/TP/CP/EP）。
稳定性保障： 构建自动容错与快速恢复系统（Checkpoint 优化、故障自动检测与接续），确保千卡集群在数月跨度的训练中保持极高可用性。

2. 推理加速与工程化 (Inference Infra)
高性能引擎： 负责基于 vLLM、TensorRT-LLM、SGLang、Triton Inference Server 等推理框架的开发与优化，提升大模型在线服务的吞吐、时延和资源利用率。
算子优化： 参与 Transformer 核心算子的开发与性能优化，包括 Attention、KV Cache、量化推理、算子融合等方向，探索 CUDA/Triton 等高性能实现方案。
推理架构： 参与构建面向大规模生产环境的推理服务体系，支持高并发、低延迟和高可用的模型服务部署与运维。

3. 存储与算力管理 (Storage & Compute)
I/O 优化： 优化超大规模数据集的加载速度，解决训练过程中的存储带宽瓶颈（如利用 GPFS, Lustre 或 JuiceFS）。
稳定性保障： 构建大规模集群故障检测、自动恢复与容灾体系，提升训练与推理服务的可靠性、高可用性及运维效率。
资源调度： 构建面向训练与推理场景的 GPU 资源调度体系，支持多租户资源共享、弹性扩缩容、任务优先级管理及异构算力调度，提高集群整体

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Python+

C+

C+++

PyTorch+

还有更多 •••

登录查看完整学习资料