logo of aliyun

阿里云研究型实习生 - 大模型训推场景超长序列并行的通信计算重叠

实习兼职阿里云研究型实习生地点:杭州状态:招聘

任职要求


扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计、开发、调试能力;
熟悉计算机体系结构基础知识,有扎实的高性能计算(GPU)、或推理框架、或模型算法优化(量化/稀疏等)方面的经验; 
熟悉分布式系统、并行计算、通信优化等相关技术,具备大规模系统性能调优经验。
优良的沟通表达能力、团队合作意识和经验;具备快速学习的能力,以及深入钻研技术问题的耐心;

加分项
有突出的学术背景和创新研究能力;
对DiT、文生视频/文生图等重点场景的系统优化或前沿算法有深入务实的经验;
具有GPU高性能Kernel开发和优化经验;
熟悉序列并行、数据并行等分布式训练/推理策略,具备通信开销评估与建模经验;
有计算与通信重叠技术、动态策略优化等相关实践经验。

工作职责


专注于大规模分布式文生视频/文生图推理系统的研究、探索和开发,具体职责包括:
探索高性能、可扩展的分布式 DiT 推理引擎,支持大规模文生视频/文生图场景的高效部署;
深入优化高性能算子、运行时、分布式策略等,打造业界领先的DiT推理引擎;
分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术;
针对文生视频/文生图等重点场景,构建业界领先的优化解决方案。
包括英文材料
Python+
C+++
设计模式+
算法+
分布式系统+
性能调优+
相关职位

logo of aliyun
实习阿里云研究型实习

我们正在寻找对大模型系统优化充满热情的优秀在读学生,参与大模型后训练阶段(Post-Training)关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体(Agent)系统等方面的系统级优化工作,探索高MFU、低延迟、高吞吐的下一代AI基础设施。 如果你热爱系统与AI的交叉领域,希望在真实超大规模场景中打磨技术,欢迎加入我们,与顶尖研究者和工程师共同推动大模型系统的技术边界! 研究方向与实习内容: 你将从以下四个核心方向中选择1-2个深入参与,开展系统性研究与工程实现: 1. 后训练 MFU(Model FLOPs Utilization)优化 研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈; 设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等); 探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化 针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理); 设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景; 探索训练-采样协同优化,降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化 构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制; 实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑 研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能; 构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估; 探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。

更新于 2025-09-05
logo of aliyun
实习阿里云研究型实习

1. 探索通算智算一体化场景下,端到端性能分析诊断体系的研究与构建,覆盖从底层硬件(CPU、GPU、NPU等)、系统软件到上层分布式框架和应用负载。 2. 深入研究CPU-GPU异构计算系统、分布式框架、系统软件栈(如操作系统、编译器、运行时)的性能瓶颈,提出并实现创新的软硬件协同优化方案。 3. 开发和落地先进的性能监控、剖析和诊断工具,支持从底层硬件指标到上层业务负载的全链路追踪与精准瓶颈定位。 4. 针对大规模AI模型训练/推理、通用计算等多样化负载,探索和实践GPU等异构资源的调度优化、资源容错、任务状态保存/恢复与快速迁移等关键技术,提升资源利用率和系统稳定性。 5. 研究内存(包括CPU内存和GPU显存)与计算的协同优化方案,旨在提升训推场景性能,降低整体成本,并优化资源利用率。 6. 将研究成果应用于阿里云平台及相关产品服务,提升云平台的整体性能、资源利用率和性价比,支持关键业务场景。 7. 在顶级学术会议和期刊上发表研究成果,并积极参与开源社区合作与技术推广,提升团队和公司在相关领域的技术影响力。

更新于 2025-06-04
logo of quark
实习日常实习生

作为研究型实习生,你将加入公司大模型训练加速方向的研究团队,参与超大规模场景下,文本和多模态领域 pre/post/alignment 方向上的高效训练相关的 前沿策略和工程实现工作。该岗位以科研驱动为主,进行理论研究、策略设计、工程原型与实验评估,并鼓励发表顶会/期刊论文与开源贡献。 1、 研究RL场景加速技术,探索前沿的训推分离、梯度压缩、通信压缩、计算压缩 相关技术,改进RL场景不同模型的训练效率,提升e2e吞吐达到业界SOTA水平; 2、 研究前沿的pretrain加速技术,探索不同模态下的 IO/流水调度/算子融合/低精度量化 等加速策略,改进超大规模训练下训练效率,提升MFU; 3、研究大模型训练策略自动寻优技术,通过模型显存、计算、通信 自动化分析和模拟,实现不同模型在不同硬件、不同规模下的训练性能最大化; 4、将研究成果落地为可复现的工程原型,集成/对接业界主流的开源训练框架(megatron/veRL); 5、撰写技术报告与论文,与团队成员及外部学术界保持沟通交流;

更新于 2025-08-20
logo of alibaba
实习淘天集团研究型实

1. 研发多模态大模型(MLLM)预训练对齐表征、垂域SFT、RLHF 等技术; 2. 探索多模态大模型(MLLM)垂域应用,如数据飞轮治理、训测蒸馏加速、开放词汇理解 等技术; 3. 研发基于大模型的图文搜索、检索增强RAG、Agent 等技术; 4. 结合以上方向的探索和研究,撰写、发表论文,和业界、学术界保持良好的交流。

更新于 2025-05-06