小红书【实习】大规模GPU集群调度优化工程师

实习兼职引擎地点：北京状态：招聘

扫码手机上打开

任职要求

1、熟悉云原生生态及工具，如Kubernetes、Kubeflow、Volcano等
2、了解GPU虚拟化、GPU集群调度、高速存储/网络等相关知识
3、了解大模型基本概念及训推生命周期，如预训练、微调、对齐、推理、部署等基本概念及流程
4、熟练使用P…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、GPU集群效能优化：参与面向大模型训练&推理场景万卡规模GPU集群效能优化，包括但不限于集群调度、在离线混部、GPU虚拟化、故障快速恢复、存储&网络加速，提升大规模GPU集群的整体吞吐与资源利用率
2、LLMOps建设优化：参与大模型训练&推理引擎与下游云原生平台深度融合，构建面向大模型训练、微调、推理、部署全流程LLMOps，支撑大模型在公司内生产链路稳定、高效落地

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

Kubernetes+

Kubeflow+

Volcano+

大模型+

Python+

还有更多 •••

登录查看完整学习资料

相关职位

计算平台研发工程师

实习阿里国际2026

AI Business成立于2023年4月，是阿里国际数字商业集团设立的一层业务组织，专注于AI技术能力建设和AI产品能力输出，旨在用最先进的AI技术重塑平台竞争力，为商家和用户带来极致的电商体验。作为跨境电商领域的AI先锋，我们坚定地相信人工智能对塑造未来电商的关键作用，并坚持对AI领域人才的培养和发展。我们已经汇聚了业内顶尖的AI算法专家、AI工程师和AI产品团队，并诚挚邀请有共同使命感、追求创新与卓越的AI人才加入我们的团队，共同用AI技术书写数字商业领域的新篇章。 1、AI 计算框架的设计与实现，包括并行计算、访存优化、量化、任务切分调度，pipeline等，支持LLM大语言模型、生成式CV模型、多模态模型等的高效计算 2、实现大规模高性能计算集群的合池管理，包括任务的统一分发调度，资源动态调度使用，离在线一体等，达成计算资源的高效利用 3、通过AI infra的研发，保障客户体验，实现业务落地和低成本

更新于 2025-04-15杭州

基础平台研发工程师

实习阿里云2026届

阿里云持续推进AI技术深化战略布局，围绕AI 和云计算的基础设施建设、AI基础模型平台、企业级AI应用方向构建核心场景。为此，我们正积极招募优秀人才：负责云计算和大数据基础技术研发，包括不限于以下方向： 1、云基础设施技术，包括研发面向百万级服务器的网络（如RDMA、可编程芯片）、服务器（如异构计算）、数据中心，以及构建超大规模的基础设施智能化运维体系（如AIOps）； 2、虚拟化技术，包括XEN、KVM等开源技术的改进，以及也包括我们自研的SDN、VPC等网络虚拟化、存储虚拟化技术，还包括Docker等轻量级的容器方案； 3、MySQL、PostgreSQL、MongoDB、Redis、HBase等开源数据库内核的改进； 4、包含单集群上万个节点，多地多集群的超大规模分布式存储系统(文件系统，KVstore，BigTable等等）、分布式计算系（MapReduce，DAG，MPI并行计算、Batch、类Hive/spark的计算系统包括离线，分布式开发语言，分布式开发IDE，查询优化，流式实时计算，图计算，MPP等等）、弹性分布式资源管理和调度（海量多维度的多目标的调度系统，多个资源维度资源隔离技术等等）、机器学习平台（包括Paratemter Server，深度学习，逻辑回归等等）、异构等新型硬件上计算（包括CPU，GPU，FPGA，RDMA等等）； 5、大数据在线引擎体系的目标是集广告、搜索、推荐的投放三位于一体，在近百毫秒周期内，从服务端跨越至移动端上智能，支撑总体近TB级的模型，完成知识推理向量匹配等各种召回，以及其它深度学习的排序和预测算法，参与计算的数十亿商品保持实时更新，支持数百位算法工程师面向众多场景展开测试，在算子流图化的抽象之下，引擎内的模型和数据可随时调整布局满足迭代所需； 6、参与大规模高并发场景下的开发者工具如IDE、SDK、CLI的开发工作，toB相关认证、权限、审计平台合规等相关工具平台的研发工作。

更新于 2025-04-29北京|成都|杭州

研究型实习生 - AI Frameworks系统软件前沿研究

实习阿里云研究型实习

【我们是谁？】阿里云智能是阿里巴巴集团的技术基石，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统（MLSys）的前沿研究与工程实践，特别是为“通义”系列大规模语言模型（LLM）的训练、推理提供坚实的系统支撑。在这里，你将有机会参与构建和优化支撑万亿参数级别模型的超级工程，直接影响亿万用户的AI体验。【为什么这个机会不容错过？——来自工业界的真实挑战与机遇】大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优，到低延迟高吞吐的推理服务和云上弹性部署，每一个环节都充满了挑战，也孕育着巨大的创新机会。我们认为，虽然算法创新是驱动力，但在LLM的整个生命周期中，系统扮演着至关重要的角色。以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战： 1.超大规模预训练系统优化：追求极致效率与稳定性 ·系统行为的深度洞察：在万卡集群并行训练的极致规模下，如何设计高效、低侵扰的追踪系统（Tracing System）以精准理解系统真实运行状态，本身就是一个难题。例如，仅网络层追踪就面临数据量爆炸性增长的挑战，如何在海量数据中高效提取关键信息，指导性能优化。 ·并行策略的自动化与智能化：随着模型结构的快速迭代，如何针对新型架构自动设计并调整最优的并行策略（张量并行、流水线并行、数据并行、序列并行及其混合），在复杂的内存、计算、通信约束下取得最佳平衡，减少人工调优的巨大成本。 ·大规模集群的韧性与容错：尽管我们拥有先进的异步、跨多级存储的Checkpointing机制，但GPU集群的故障（硬件、软件、网络等）仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力，最大限度减少故障影响，保障训练任务的连续性和效率。 2.后训练（RLHF等）中的算法-系统协同设计：提升“智能”的性价比 ·复杂工作流的高效资源调度：后训练阶段（如RLHF）涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统，自动、高效地为这些任务分配和管理计算、存储、网络资源，以最小化总体资源消耗，或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化：后训练的算法仍在快速演进，如何设计灵活、可扩展的系统架构，以适应算法的不断变化，并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务：敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障：云上推理业务场景丰富，客户对吞吐量、延迟、成本等有着不同的服务等级协议（SLA）要求。如何设计统一而灵活的推理服务系统，满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化：学术界和开源社区的推理优化技术（如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等）日新月异。如何构建一套敏捷的工程体系，快速评估、吸收、融合这些前沿技术，并将其稳定部署到在线服务中，持续提升推理效率。 ·极致的资源弹性与成本效益：在云环境中，如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测，应对业务负载的剧烈波动，最大限度地减少空闲资源浪费，为用户提供最具成本效益的LLM服务。

更新于 2025-06-03杭州|上海

训练平台性能优化工程师实习生

实习

深度优化训练流程主导模型训练全链路性能分析与优化，设计GPU资源弹性调度策略开发自动化训练加速工具链，构建可扩展的云端训练框架研发混合精度训练、梯度压缩等前沿技术，突破训练吞吐瓶颈构建训练优化体系制定标准化训练效能评估体系，建立成本-效率量化模型设计可复用的训练加速组件库，沉淀最佳实践方法论开发训练过程性能分析平台，实现性能问题智能诊断赋能业务研发优化多任务资源调度策略，提升GPU集群整体利用率为算法团队提供训练加速解决方案，缩短模型迭代周期

更新于 2025-07-22北京