优酷优酷-AI-Infra工程师-北京
社招全职3年以上地点:北京状态:招聘
任职要求
1、擅长C++/Python/Golang,熟悉Linux环境开发,具备扎实的数据结构与算法基础 2、深入理解分布式系统原理,熟悉NCCL、MPI、RDMA等通信库或协议 3、熟悉PyTorch/DeepSpeed/Megatron/vLLM等框架源码,了解自动微分、计算图优化等底层机制 4、有GPU/CUDA编…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、参与AI训练与推理系统的定制和优化,基于计算-存储-通信协同设计,为算法和模型迭代提供优秀的分布式训练和推理解决方案 2、构建高性能计算集群,提供跨地域异构算力的管理,解决通信、存储、调度等系统级瓶颈 3、深入AI框架底层(如PyTorch、Megatron、vLLM等),改进分布式计算、自动并行、显存优化等核心模块 4、支持AI服务的规模化部署,参与加速优化,算力调度优化和稳定性保障工作,提供通用的模型加速,问题诊断,可观测性等解决方案 5、探索前沿技术方向,如编译优化、post-train训练、agent基础框架等,参与算法模型和工程技术的联合创新实践,解决AI落地业务应用过程中,新出现的效率、规模问题
包括英文材料
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
数据结构+
https://www.youtube.com/watch?v=8hly31xKli0
In this course you will learn about algorithms and data structures, two of the fundamental topics in computer science.
https://www.youtube.com/watch?v=B31LgI4Y4DQ
Learn about data structures in this comprehensive course. We will be implementing these data structures in C or C++.
https://www.youtube.com/watch?v=CBYHwZcbD-s
Data Structures and Algorithms full course tutorial java
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
NCCL+
https://developer.nvidia.com/nccl
The NVIDIA Collective Communication Library (NCCL) implements multi-GPU and multi-node communication primitives optimized for NVIDIA GPUs and networking.
Message Passing Interface+
https://www.youtube.com/watch?v=7huftuXExV0
Parallel programming and MPI are crucial tools for achieving high performance computing.
[英文] 📺Basics of the Message Passing Interface (MPI) to program distributed memory parallel computers
https://www.youtube.com/watch?v=tm8M5H1OZmw
The Message Passing Interface (MPI) is a widely used standard to program distributed message parallel computers.
还有更多 •••
相关职位
社招3年以下网易有道
1.结合HPC和AI前沿技术,设计和优化大模型训练和推理框架,负责模型优化、算子优化、图优化、分布式优化等,提升计算效率 2. 负责云侧或端侧大模型和小模型推理服务开发、性能优化、上线等工作
更新于 2025-11-03北京
社招1年以上技术类-开发
负责 AI Agent Infra 建设,提升 AI Agent 产品创新效率,探索生成式 AI 在数字世界的实际应用。 1. 建设 Agent SWE Infra 工程,提升 Agent 相关代码的个性化构建和发布效率; 2. 建设 Sandbox Infra 工程,为各类 Agentic 场景提供高效、稳定、大规模的模拟器、多工具、图形交互的沙箱环境; 3. 建设 Serving Infra 工程,为生产提供通用的 Agent 服务化框架,优化 LLM 和 Agent 性能,保障高可用运行。
更新于 2026-01-05北京|杭州
社招4年以上
1、参与AI训练与推理系统的定制和优化,基于计算-存储-通信协同设计,为算法和模型迭代提供优秀的分布式训练和推理解决方案 2、构建高性能计算集群,提供跨地域异构算力的管理,解决通信、存储、调度等系统级瓶颈 3、深入AI框架底层(如PyTorch、Megatron、vLLM等),改进分布式计算、自动并行、显存优化等核心模块 4、支持AI服务的规模化部署,参与加速优化,算力调度优化和稳定性保障工作,提供通用的模型加速,问题诊断,可观测性等解决方案 5、探索前沿技术方向,如编译优化、post-train训练、agent基础框架等,参与算法模型和工程技术的联合创新实践,解决AI落地业务应用过程中,新出现的效率、规模问题
更新于 2025-07-29北京