logo of xiaohongshu

小红书【实习】大规模GPU集群调度优化工程师

实习兼职引擎地点:北京状态:招聘

任职要求


1、熟悉云原生生态及工具,如KubernetesKubeflowVolcano等
2、了解GPU虚拟化、GPU集群调度、高速存储/网络等相关知识
3、了解大模型基本概念及训推生命周期,如预训练、微调、对齐、推理、部署等基本概念及流程
4、熟练使用P…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、GPU集群效能优化:参与面向大模型训练&推理场景万卡规模GPU集群效能优化,包括但不限于集群调度、在离线混部、GPU虚拟化、故障快速恢复、存储&网络加速,提升大规模GPU集群的整体吞吐与资源利用率
2、LLMOps建设优化:参与大模型训练&推理引擎与下游云原生平台深度融合,构建面向大模型训练、微调、推理、部署全流程LLMOps,支撑大模型在公司内生产链路稳定、高效落地
包括英文材料
Kubernetes+
Kubeflow+
Volcano+
大模型+
Python+
还有更多 •••
相关职位

logo of mi
实习

深度优化训练流程 主导模型训练全链路性能分析与优化,设计GPU资源弹性调度策略 开发自动化训练加速工具链,构建可扩展的云端训练框架 研发混合精度训练、梯度压缩等前沿技术,突破训练吞吐瓶颈 构建训练优化体系 制定标准化训练效能评估体系,建立成本-效率量化模型 设计可复用的训练加速组件库,沉淀最佳实践方法论 开发训练过程性能分析平台,实现性能问题智能诊断 赋能业务研发 优化多任务资源调度策略,提升GPU集群整体利用率 为算法团队提供训练加速解决方案,缩短模型迭代周期

更新于 2025-07-22北京
logo of mi
实习

深度优化训练流程 主导模型训练全链路性能分析与优化,设计GPU资源弹性调度策略 开发自动化训练加速工具链,构建可扩展的云端训练框架 研发混合精度训练、梯度压缩等前沿技术,突破训练吞吐瓶颈 构建训练优化体系 制定标准化训练效能评估体系,建立成本-效率量化模型 设计可复用的训练加速组件库,沉淀最佳实践方法论 开发训练过程性能分析平台,实现性能问题智能诊断 赋能业务研发 优化多任务资源调度策略,提升GPU集群整体利用率 为算法团队提供训练加速解决方案,缩短模型迭代周期

更新于 2026-01-20北京
logo of aliyun
社招3年以上云智能集团

1. 面向 AI 业务的网络架构设计与演进 ○ 负责支持大规模 AI 训练/推理集群的网络架构规划与方案设计,覆盖 AI access 网络、frontend 网络、AI scale up 网络等关键环节。 ○ 结合业务场景识别网络接入、流量调度、数据分发链路中的性能和可靠性瓶颈,提出系统级优化方案。 2. 高性能多路径传输与 RDMA 方向创新 ○ 深入调研业界前沿应用层多路径传输、RDMA 及相关协议栈优化技术,系统性分析其优缺点与适用场景。 ○ 基于阿里云大规模生产环境,设计并落地面向 AI 流量的多路径传输优化机制,实现端到端的高带宽、低时延和高稳定性。 3. 网络系统研发与产品化落地 ○ 将整体技术方案拆解为可实施的技术点,完成可行性分析、技术规范制定与验收标准设计。 ○ 主导关键模块的架构设计与核心代码开发,构建可快速迭代的原型系统,验证技术路线。 ○ 在验证基础上持续进行性能优化与工程化改造,推动方案产品化落地,并支撑大规模部署和运营。 4. 稳定性与性能优化 ○ 制定并实施面向超大规模集群的稳定性保障策略,从架构设计、协议栈实现、流控/调度策略等多层面建设高可用能力。 ○ 在真实业务环境中开展端到端性能剖析与容量规划,识别热点与瓶颈,落地针对性优化措施,保障高负载下的稳定性能表现。 5. 数智一体的网络分析与智能运维 ○ 利用大数据与大语言模型,设计并研发超大规模网络分析与智能运维系统,提升网络研发、运营、运维、测试效率。 ○ 探索 AI for Network 的创新场景,如异常检测、故障根因定位、智能调度策略优化等。 6. 学术前沿跟踪与技术影响力建设 ○ 持续跟踪计算机网络、AI infra、可编程网络硬件等领域的前沿研究与产业趋势,并评估其在阿里云场景中的落地价值。 ○ 鼓励/支持在 SIGCOMM、NSDI、ATC 等顶会发表论文或输出技术分享,增强团队和个人在业界的技术影响力。

更新于 2025-12-24杭州
logo of hello
社招算法

岗位亮点: • 参与万卡超算集群、多云、多集群环境下大规模 AI 模型训练与推理性能优化。 • 聚焦 PyTorch 框架性能优化,包括算子加速、DataLoader 异步加载、混合精度训练和端到端训练流水线调优。 • 快速成长为深度学习训练性能优化、分布式训练和高性能计算方向的核心人才。 • 优化 PyTorch 模型训练与推理性能,包括算子级优化、GPU/CPU 调度、内存和 I/O 管理。 • 分析训练/推理流程中的性能瓶颈,提出优化方案并实现,提升吞吐量和资源利用率。 • 支持多云、多集群环境下大规模训练任务,保证平台高性能和高可用性。 • 与训练平台研发团队和算法团队协作,优化端到端训练/推理流水线。

更新于 2025-12-15上海