哔哩哔哩【B-UP】AI Infra高性能计算工程师-实习

实习兼职技术类2026-06-24地点：上海状态：招聘

扫码手机上打开

任职要求

1、计算机、网络工程、电子信息、高性能计算、人工智能等相关专业；
2、熟悉 Linux 操作系统，掌握基础 Linux 命令，了解 Shell/Python 任意一种脚本语言，具备基础脚本编写能力；
3、了解计算机网络基础原理，熟悉 TCP/IP、二层 / 三层网络架构，有 RDMA、InfiniBand、RoCE …

登录查看完整任职要求

微信扫码，1秒登录

工作职责

面向高性能 GPU 大卡集群、AI 训练 / 推理集群，聚焦集群全栈性能优化、网络异常检测、服务器故障定位，支撑大模型训练、分布式算力业务稳定高效运行

团队通用职责：
1、参与大规模 GPU 集群日常压测、基线梳理、运维保障，配合完成集群扩容、版本升级、环境标准化工作
2、基于 Prometheus、Grafana、DCGM 等工具搭建集群监控大盘，输出性能报表、故障分析报告与优化方案
3、编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册，沉淀技术知识库
4、协同算法、平台、网络团队，联动定位集群全链路问题，保障大模型训练、分布式任务稳定运行
5、跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术，持续优化集群架构与运行效率

岗位具体职责：
聚焦硬件、驱动、通信库、调度、框架全维度性能优化，提升集群算力利用率与任务吞吐，细分具体工作内容：
1、负责 GPU 硬件栈调优：完成 GPU 驱动、CUDA、cuDNN、固件版本选型与参数调优，优化 GPU 功耗、显存占用、卡间 NVLink 通信效率，解决 GPU 降频、算力跑不满问题
2、分布式通信优化：针对 NCCL 集合通信库做参数调优，优化多机多卡分布式训练通信逻辑，降低通信时延、提升集合通信吞吐
3、系统与内核调优：基于 Linux 操作系统做内核参数、内存、IO、进程调度优化，适配高负载 GPU 集群运行场景
4、算力调度优化：配合 Slurm/K8s 算力调度平台，优化任务队列、资源配额、负载均衡策略，减少任务排队、资源碎片问题
5、AI 框架适配调优：对接 PyTorch、TensorFlow、vLLM 等主流框架，完成训练 / 推理场景参数调优，实现计算与通信重叠，提升端到端任务性能
6、集群基准测试：使用行业标准压测工具完成集群算力、吞吐、时延基准测试，定位性能瓶颈并落地优化方案

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Linux+

Bash+

Python+

脚本+

还有更多 •••

登录查看完整学习资料