logo of youku

优酷优酷-AI-Infra工程师-北京

社招全职3年以上地点:北京状态:招聘

任职要求


1、擅长C++/Python/Golang,熟悉Linux环境开发,具备扎实的数据结构算法基础
2、深入理解分布式系统原理,熟悉NCCLMPI、RDMA等通信库或协议
3、熟悉PyTorch/DeepSpeed/Megatron/vLLM等框架源码,了解自动微分、计算图优化等底层机制
4、有GPU/CUDA编…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、参与AI训练与推理系统的定制和优化,基于计算-存储-通信协同设计,为算法和模型迭代提供优秀的分布式训练和推理解决方案
2、构建高性能计算集群,提供跨地域异构算力的管理,解决通信、存储、调度等系统级瓶颈
3、深入AI框架底层(如PyTorch、Megatron、vLLM等),改进分布式计算、自动并行、显存优化等核心模块
4、支持AI服务的规模化部署,参与加速优化,算力调度优化和稳定性保障工作,提供通用的模型加速,问题诊断,可观测性等解决方案
5、探索前沿技术方向,如编译优化、post-train训练、agent基础框架等,参与算法模型和工程技术的联合创新实践,解决AI落地业务应用过程中,新出现的效率、规模问题
包括英文材料
C+++
Python+
Go+
Linux+
数据结构+
算法+
分布式系统+
NCCL+
Message Passing Interface+
还有更多 •••
相关职位

logo of netease
社招3年以下网易有道

1.结合HPC和AI前沿技术,设计和优化大模型训练和推理框架,负责模型优化、算子优化、图优化、分布式优化等,提升计算效率 2. 负责云侧或端侧大模型和小模型推理服务开发、性能优化、上线等工作

更新于 2025-11-03北京
logo of antgroup
社招1年以上技术类-开发

负责 AI Agent Infra 建设,提升 AI Agent 产品创新效率,探索生成式 AI 在数字世界的实际应用。 1. 建设 Agent SWE Infra 工程,提升 Agent 相关代码的个性化构建和发布效率; 2. 建设 Sandbox Infra 工程,为各类 Agentic 场景提供高效、稳定、大规模的模拟器、多工具、图形交互的沙箱环境; 3. 建设 Serving Infra 工程,为生产提供通用的 Agent 服务化框架,优化 LLM 和 Agent 性能,保障高可用运行。

更新于 2026-01-05北京|杭州
logo of youku
社招4年以上

1、参与AI训练与推理系统的定制和优化,基于计算-存储-通信协同设计,为算法和模型迭代提供优秀的分布式训练和推理解决方案 2、构建高性能计算集群,提供跨地域异构算力的管理,解决通信、存储、调度等系统级瓶颈 3、深入AI框架底层(如PyTorch、Megatron、vLLM等),改进分布式计算、自动并行、显存优化等核心模块 4、支持AI服务的规模化部署,参与加速优化,算力调度优化和稳定性保障工作,提供通用的模型加速,问题诊断,可观测性等解决方案 5、探索前沿技术方向,如编译优化、post-train训练、agent基础框架等,参与算法模型和工程技术的联合创新实践,解决AI落地业务应用过程中,新出现的效率、规模问题

更新于 2025-07-29北京
logo of alibaba
社招1年以上

服务淘天电商核心营销业务,针对AI在搜索/推荐/广告、创意、风控等场景的应用开展: 1. AI推理和服务框架的研发与优化,解决实际的业务问题; 2. 算法-软件-硬件协同优化(异构并行计算、AI编译、稀疏量化、混部与弹性等),发挥数十万CPU核和数千加速卡的计算潜力; 3. 研究业界前沿的AI算法、系统和硬件,探索面向推荐系统或大模型AI在线服务的理想软件和硬件系统。

更新于 2025-10-27北京