logo of aliyun

阿里云研究型实习生 - 大模型训推场景超长序列并行的通信计算重叠

实习兼职阿里云研究型实习生地点:杭州状态:招聘

任职要求


扎实的工程能力,优良的编程风格,熟悉Python/C++语言和常用设计模式,具备复杂系统的设计、开发、调试能力;
熟悉计算机体系结构基础知识,有扎实的高性能计算(GPU)、或推理框架、或模型算法优化(量化/稀疏等)方面的经验; 
熟悉分布式系统、并行计算、通信优化等相关技术,具备大规模系统性能调优经验。
优良的沟通表达能力、团队合作意识和经验…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


专注于大规模分布式文生视频/文生图推理系统的研究、探索和开发,具体职责包括:
探索高性能、可扩展的分布式 DiT 推理引擎,支持大规模文生视频/文生图场景的高效部署;
深入优化高性能算子、运行时、分布式策略等,打造业界领先的DiT推理引擎;
分析现有引擎和典型负载的性能瓶颈,提出并实现创新的优化技术;
针对文生视频/文生图等重点场景,构建业界领先的优化解决方案。
包括英文材料
Python+
C+++
设计模式+
还有更多 •••
相关职位

logo of aliyun
实习阿里云研究型实习

我们正在寻找对大模型系统优化充满热情的优秀在读学生,参与大模型后训练阶段(Post-Training)关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体(Agent)系统等方面的系统级优化工作,探索高MFU、低延迟、高吞吐的下一代AI基础设施。 如果你热爱系统与AI的交叉领域,希望在真实超大规模场景中打磨技术,欢迎加入我们,与顶尖研究者和工程师共同推动大模型系统的技术边界! 研究方向与实习内容: 你将从以下四个核心方向中选择1-2个深入参与,开展系统性研究与工程实现: 1. 后训练 MFU(Model FLOPs Utilization)优化 研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈; 设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等); 探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化 针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理); 设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景; 探索训练-采样协同优化,降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化 构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制; 实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑 研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能; 构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估; 探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。

更新于 2026-01-20北京
logo of tongyi
实习通义研究型实习生

我们是通义实验室多模态交互团队,正在寻找对具身智能与数字人前沿交叉领域充满热情的研究型实习生。本项目在团队在生成理解一体化方面的坚实基础(如Z-Image等代表性工作),共同构建下一代具身智能与多模态数字人大模型,进一步打通“感知-理解-生成-执行”全链路,在统一架构下探索环境理解、行为生成与多模态交互的深度协同。 你将参与如下关键方向: 1. 设计并实现支持自然语言指令到连续动作序列端到端控制的生成理解一体化具身基础模型; 2. 构建能响应语音、文本、视觉等全模态输入,实时高质量数字人生成大模型; 3. 开发融合真实与仿真数据的千万级多模态具身训练平台; 4. 优化模型推理效率,推动大模型在机器人端侧或实时交互场景中的部署。 优秀成果可形成专利/论文,或发布通义开源社区

更新于 2025-12-11北京|杭州
logo of aliyun
实习阿里云研究型实习

1. 探索通算智算一体化场景下,端到端性能分析诊断体系的研究与构建,覆盖从底层硬件(CPU、GPU、NPU等)、系统软件到上层分布式框架和应用负载。 2. 深入研究CPU-GPU异构计算系统、分布式框架、系统软件栈(如操作系统、编译器、运行时)的性能瓶颈,提出并实现创新的软硬件协同优化方案。 3. 开发和落地先进的性能监控、剖析和诊断工具,支持从底层硬件指标到上层业务负载的全链路追踪与精准瓶颈定位。 4. 针对大规模AI模型训练/推理、通用计算等多样化负载,探索和实践GPU等异构资源的调度优化、资源容错、任务状态保存/恢复与快速迁移等关键技术,提升资源利用率和系统稳定性。 5. 研究内存(包括CPU内存和GPU显存)与计算的协同优化方案,旨在提升训推场景性能,降低整体成本,并优化资源利用率。 6. 将研究成果应用于阿里云平台及相关产品服务,提升云平台的整体性能、资源利用率和性价比,支持关键业务场景。 7. 在顶级学术会议和期刊上发表研究成果,并积极参与开源社区合作与技术推广,提升团队和公司在相关领域的技术影响力。

更新于 2025-06-04上海
logo of aliyun
实习阿里云研究型实习

1、探索通算智算一体化场景下,端到端性能分析诊断体系的研究与构建,覆盖从底层硬件(CPU、GPU、NPU等)、系统软件到上层分布式框架和应用负载; 2、深入研究CPU-GPU异构计算系统、分布式框架、系统软件栈(如操作系统、编译器、运行时)的性能瓶颈,提出并实现创新的软硬件协同优化方案; 3、开发和落地先进的性能监控、剖析和诊断工具,支持从底层硬件指标到上层业务负载的全链路追踪与精准瓶颈定位; 4、针对大规模AI模型训练/推理、通用计算等多样化负载,探索和实践GPU等异构资源的调度优化、资源容错、任务状态保存/恢复与快速迁移等关键技术,提升资源利用率和系统稳定性; 5、研究内存(包括CPU内存和GPU显存)与计算的协同优化方案,旨在提升训推场景性能,降低整体成本,并优化资源利用率; 6、将研究成果应用于阿里云平台及相关产品服务,提升云平台的整体性能、资源利用率和性价比,支持关键业务场景; 7、在顶级学术会议和期刊上发表研究成果,并积极参与开源社区合作与技术推广,提升团队和公司在相关领域的技术影响力。

更新于 2026-01-06北京|杭州