通义研究型实习生-大模型稳定高效训练探索
任职要求
1. 有大模型算法设计和训练经验的优先。 2. 有大模型算法相关研究经历和具有影响力的科研工作(高引用论文、知名开源项目、企业大模型项目等)的优先。 3. 自我驱动力,动手能力强,对AI行业…
工作职责
1.探索基于数据驱动的高效后训练优化策略,以更高效地提升模型性能,降低计算资源的消耗。 2.探索推理路径优化方法,提高大语言模型在多步推理、逻辑推理及跨领域知识融合任务中的准确性,稳定性和可控性。 3.探索推理能力自适应提升技术,开发能够根据具体任务需求动态调整推理策略的自适应学习机制,使模型在不同场景下都能达到较高的推理效率和准确率。
我们正在寻找对大模型系统优化充满热情的优秀在读学生,参与大模型后训练阶段(Post-Training)关键系统与架构的前沿研究。你将深度参与千亿级大模型在强化学习训练、推理效率、训推分离架构、智能体(Agent)系统等方面的系统级优化工作,探索高MFU、低延迟、高吞吐的下一代AI基础设施。 如果你热爱系统与AI的交叉领域,希望在真实超大规模场景中打磨技术,欢迎加入我们,与顶尖研究者和工程师共同推动大模型系统的技术边界! 研究方向与实习内容: 你将从以下四个核心方向中选择1-2个深入参与,开展系统性研究与工程实现: 1. 后训练 MFU(Model FLOPs Utilization)优化 研究SFT、RLHF、DPO等后训练任务中的计算效率瓶颈; 设计高MFU的训练策略与系统支持,优化计算密度(如序列填充、混合批次、梯度累积等); 探索算力利用率提升路径,结合通信、显存、计算进行端到端建模与优化。 2. 强化学习推理框架优化 针对RLHF中大量采样推理的需求,优化推理延迟与吞吐(如Speculative Decoding、KV Cache复用、动态批处理); 设计轻量、高效的推理引擎,支持多轮对话、长上下文、流式生成等复杂场景; 探索训练-采样协同优化,降低推理端对训练整体效率的制约。 3. 强化学习训推分离架构优化 构建解耦的“训练-采样”系统架构,支持高并发采样与异步训练更新; 研究采样集群与训练集群之间的资源调度、数据同步与负载均衡机制; 实现弹性扩缩容、故障恢复、版本管理等系统能力,提升整体稳定性与可扩展性。 4. Agent 框架优化与系统支撑 研究面向复杂任务的Agent执行框架,优化工具调用、状态管理、多步规划的系统性能; 构建低延迟、高并发的Agent运行时环境,支持大规模仿真与自动评估; 探索Agent工作流的可复现性、可观测性与调试支持,提升研发效率。
专注于视觉通用大模型的设计、优化与高效部署,具体职责包括: 1、研究高效的视觉通用大模型架构,应对复杂视觉任务,提升模型的准确性和泛化能力; 2、优化算子和通信机制,提升模型训练效率,降低硬件资源消耗,提高训练速度和资源利用率; 3、探索高效的训练策略,包括自适应学习率调整、正则化方法和优化算法选择,提升模型性能和稳定性; 4、设计和实现自动化评估方法,帮助研发团队及时发现模型不足,优化模型架构和训练策略; 5、研发数据过滤和标注相关模型,提高数据质量和可用性,为模型训练提供支持。
作为研究型实习生,你将加入公司大模型训练加速方向的研究团队,参与超大规模场景下,文本和多模态领域 pre/post/alignment 方向上的高效训练相关的 前沿策略和工程实现工作。该岗位以科研驱动为主,进行理论研究、策略设计、工程原型与实验评估,并鼓励发表顶会/期刊论文与开源贡献。 1、 研究RL场景加速技术,探索前沿的训推分离、梯度压缩、通信压缩、计算压缩 相关技术,改进RL场景不同模型的训练效率,提升e2e吞吐达到业界SOTA水平; 2、 研究前沿的pretrain加速技术,探索不同模态下的 IO/流水调度/算子融合/低精度量化 等加速策略,改进超大规模训练下训练效率,提升MFU; 3、研究大模型训练策略自动寻优技术,通过模型显存、计算、通信 自动化分析和模拟,实现不同模型在不同硬件、不同规模下的训练性能最大化; 4、将研究成果落地为可复现的工程原型,集成/对接业界主流的开源训练框架(megatron/veRL); 5、撰写技术报告与论文,与团队成员及外部学术界保持沟通交流;
【我们是谁?】 阿里云智能是阿里巴巴集团的技术基石,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统(MLSys)的前沿研究与工程实践,特别是为“通义”系列大规模语言模型(LLM)的训练、推理提供坚实的系统支撑。在这里,你将有机会参与构建和优化支撑万亿参数级别模型的超级工程,直接影响亿万用户的AI体验。 【为什么这个机会不容错过?——来自工业界的真实挑战与机遇】 大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优,到低延迟高吞吐的推理服务和云上弹性部署,每一个环节都充满了挑战,也孕育着巨大的创新机会。我们认为,虽然算法创新是驱动力,但在LLM的整个生命周期中,系统扮演着至关重要的角色。 以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战: 1.超大规模预训练系统优化:追求极致效率与稳定性 ·系统行为的深度洞察:在万卡集群并行训练的极致规模下,如何设计高效、低侵扰的追踪系统(Tracing System)以精准理解系统真实运行状态,本身就是一个难题。例如,仅网络层追踪就面临数据量爆炸性增长的挑战,如何在海量数据中高效提取关键信息,指导性能优化。 ·并行策略的自动化与智能化:随着模型结构的快速迭代,如何针对新型架构自动设计并调整最优的并行策略(张量并行、流水线并行、数据并行、序列并行及其混合),在复杂的内存、计算、通信约束下取得最佳平衡,减少人工调优的巨大成本。 ·大规模集群的韧性与容错:尽管我们拥有先进的异步、跨多级存储的Checkpointing机制,但GPU集群的故障(硬件、软件、网络等)仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力,最大限度减少故障影响,保障训练任务的连续性和效率。 2.后训练(RLHF等)中的算法-系统协同设计:提升“智能”的性价比 ·复杂工作流的高效资源调度:后训练阶段(如RLHF)涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统,自动、高效地为这些任务分配和管理计算、存储、网络资源,以最小化总体资源消耗,或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化:后训练的算法仍在快速演进,如何设计灵活、可扩展的系统架构,以适应算法的不断变化,并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务:敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障:云上推理业务场景丰富,客户对吞吐量、延迟、成本等有着不同的服务等级协议(SLA)要求。如何设计统一而灵活的推理服务系统,满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化:学术界和开源社区的推理优化技术(如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等)日新月异。如何构建一套敏捷的工程体系,快速评估、吸收、融合这些前沿技术,并将其稳定部署到在线服务中,持续提升推理效率。 ·极致的资源弹性与成本效益:在云环境中,如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测,应对业务负载的剧烈波动,最大限度地减少空闲资源浪费,为用户提供最具成本效益的LLM服务。