哔哩哔哩【B-UP】AI Infra高性能计算工程师-实习
实习兼职技术类地点:上海状态:招聘
任职要求
1、计算机、网络工程、电子信息、高性能计算、人工智能等相关专业; 2、熟悉 Linux 操作系统,掌握基础 Linux 命令,了解 Shell/Python 任意一种脚本语言,具备基础脚本编写能力; 3、了解计算机网络基础原理,熟悉 TCP/IP、二层 / 三层网络架构,有 RDMA、InfiniBand、RoCE …
登录查看完整任职要求
微信扫码,1秒登录
工作职责
面向高性能 GPU 大卡集群、AI 训练 / 推理集群,聚焦集群全栈性能优化、网络异常检测、服务器故障定位,支撑大模型训练、分布式算力业务稳定高效运行 团队通用职责: 1、参与大规模 GPU 集群日常压测、基线梳理、运维保障,配合完成集群扩容、版本升级、环境标准化工作 2、基于 Prometheus、Grafana、DCGM 等工具搭建集群监控大盘,输出性能报表、故障分析报告与优化方案 3、编写 Shell/Python 自动化脚本、运维 SOP、故障处理手册,沉淀技术知识库 4、协同算法、平台、网络团队,联动定位集群全链路问题,保障大模型训练、分布式任务稳定运行 5、跟踪 GPU 集群、RDMA 网络、分布式通信前沿技术,持续优化集群架构与运行效率 岗位具体职责: 聚焦硬件、驱动、通信库、调度、框架全维度性能优化,提升集群算力利用率与任务吞吐,细分具体工作内容: 1、负责 GPU 硬件栈调优:完成 GPU 驱动、CUDA、cuDNN、固件版本选型与参数调优,优化 GPU 功耗、显存占用、卡间 NVLink 通信效率,解决 GPU 降频、算力跑不满问题 2、分布式通信优化:针对 NCCL 集合通信库做参数调优,优化多机多卡分布式训练通信逻辑,降低通信时延、提升集合通信吞吐 3、系统与内核调优:基于 Linux 操作系统做内核参数、内存、IO、进程调度优化,适配高负载 GPU 集群运行场景 4、算力调度优化:配合 Slurm/K8s 算力调度平台,优化任务队列、资源配额、负载均衡策略,减少任务排队、资源碎片问题 5、AI 框架适配调优:对接 PyTorch、TensorFlow、vLLM 等主流框架,完成训练 / 推理场景参数调优,实现计算与通信重叠,提升端到端任务性能 6、集群基准测试:使用行业标准压测工具完成集群算力、吞吐、时延基准测试,定位性能瓶颈并落地优化方案
包括英文材料
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
Bash+
[英文] The Bash Guide
https://guide.bash.academy/
A quality-driven guide through the shell's many features.
https://www.youtube.com/watch?v=tK9Oc6AEnR4
Understanding how to use bash scripting will enhance your productivity by automating tasks, streamlining processes, and making your workflow more efficient.
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
脚本+
[英文] Scripting language
https://en.wikipedia.org/wiki/Scripting_language
https://zhuanlan.zhihu.com/p/571097954
一个脚本通常是解释执行而非编译。脚本语言通常都有简单、易学、易用的特性,目的就是希望能让程序员快速完成程序的编写工作。
还有更多 •••