阿里云研究型实习生 - 大规模LLM模型训练优化研究项目

实习兼职阿里云研究型实习生2025-01-21地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

候选人应为计算机及相关专业的博士或硕士研究生，且对机器学习系统有充分的兴趣；最好有机器学习系统及分布式系统相关研究和开发经验…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

随着模型尺寸和数据规模的持续扩大，预训练任务已成为AI研究和发展中最为资源密集的环节之一。本项目旨在深入的理解预训练任务的workload特点，定位性能瓶颈，并进行优化从而降低预训练任务的成本开销。例如从Pipeline，显存，通信优化等方面优化MoE大规模训练任务的吞吐，支持包括通义实验室等领域方向。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

分布式系统+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生 - AI Frameworks系统软件前沿研究

实习阿里云研究型实习

【我们是谁？】阿里云智能是阿里巴巴集团的技术基石，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统（MLSys）的前沿研究与工程实践，特别是为“通义”系列大规模语言模型（LLM）的训练、推理提供坚实的系统支撑。在这里，你将有机会参与构建和优化支撑万亿参数级别模型的超级工程，直接影响亿万用户的AI体验。【为什么这个机会不容错过？——来自工业界的真实挑战与机遇】大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优，到低延迟高吞吐的推理服务和云上弹性部署，每一个环节都充满了挑战，也孕育着巨大的创新机会。我们认为，虽然算法创新是驱动力，但在LLM的整个生命周期中，系统扮演着至关重要的角色。以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战： 1.超大规模预训练系统优化：追求极致效率与稳定性 ·系统行为的深度洞察：在万卡集群并行训练的极致规模下，如何设计高效、低侵扰的追踪系统（Tracing System）以精准理解系统真实运行状态，本身就是一个难题。例如，仅网络层追踪就面临数据量爆炸性增长的挑战，如何在海量数据中高效提取关键信息，指导性能优化。 ·并行策略的自动化与智能化：随着模型结构的快速迭代，如何针对新型架构自动设计并调整最优的并行策略（张量并行、流水线并行、数据并行、序列并行及其混合），在复杂的内存、计算、通信约束下取得最佳平衡，减少人工调优的巨大成本。 ·大规模集群的韧性与容错：尽管我们拥有先进的异步、跨多级存储的Checkpointing机制，但GPU集群的故障（硬件、软件、网络等）仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力，最大限度减少故障影响，保障训练任务的连续性和效率。 2.后训练（RLHF等）中的算法-系统协同设计：提升“智能”的性价比 ·复杂工作流的高效资源调度：后训练阶段（如RLHF）涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统，自动、高效地为这些任务分配和管理计算、存储、网络资源，以最小化总体资源消耗，或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化：后训练的算法仍在快速演进，如何设计灵活、可扩展的系统架构，以适应算法的不断变化，并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务：敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障：云上推理业务场景丰富，客户对吞吐量、延迟、成本等有着不同的服务等级协议（SLA）要求。如何设计统一而灵活的推理服务系统，满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化：学术界和开源社区的推理优化技术（如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等）日新月异。如何构建一套敏捷的工程体系，快速评估、吸收、融合这些前沿技术，并将其稳定部署到在线服务中，持续提升推理效率。 ·极致的资源弹性与成本效益：在云环境中，如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测，应对业务负载的剧烈波动，最大限度地减少空闲资源浪费，为用户提供最具成本效益的LLM服务。

更新于 2025-06-03杭州|上海

AI Agent算法工程师-AI项目实习生

实习高德研究型实习生

职位描述跟进AI Agent领域最新技术动态，围绕LLM大模型、Agent框架、LLM Reasoning技术（如思维链、多步推理）、优化复杂查询的Deep Research模式、长期记忆机制、自动化数据合成、指令微调（Instruction Tuning）、偏好对齐（RLHF/DPO）等技术，持续推动算法创新与落地。开展LLM Agent技术研发，构建端到端Agent系统，涵盖意图识别、知识检索、结果生成与偏好对齐，推动相关技术研究与算法落地，提升用户体验。

更新于 2025-09-10北京

研究型实习生 - 大模型预训练数据处理的文本去重性能优化

实习阿里云研究型实习

该职位会专注于大规模离线LLM推理在文本处理场景中的研究和开发，具体职责包括： 1、大模型的量化调优，在较低内存和CPU算力的环境中，依然可以达到较高的token处理和生成速率。 2、常用推理框架(e.g. vLLM, Llama.cpp)，在网页文本处理任务上的性能调优，特别是针对质量分计算或者打标场景的调优。 3、中低端GPU对于小参数LLM(1.5B/3B/7B/14B等规格）的推理性能调优。

更新于 2025-04-07北京

研究型实习生-大模型的解码干预技术

实习通义研究型实习生

随着大规模语言模型（LLM）的规模效应在训练数据与参数大小上的显著提升，解码方案的优化也逐渐成为提升模型生成性能的关键。通过在解码过程中投入一定的计算量，可以显著提高模型的生成质量和效率。通义千问模型已经在全球范围内取得了领先的模型效果，为进一步探索解码干预方案提供了坚实的基础。本项目旨在探索以下一项或多项技术问题，以进一步提升大规模语言模型的解码性能： - 解码过程控制：研究如何对解码过程进行有效控制，提升模型处理复杂问题的能力。例如，如何通过动态调整解码策略来应对不同类型的输入，或在生成过程中引入更多的上下文信息。 - 大小模型结合的解码干预：研究如何通过训练小模型来干预大模型的行为，从而在不显著影响大模型整体性能的前提下，提升特定任务的生成质量或效率。这包括如何设计小模型的架构、如何与大模型进行有效的交互。 - 长文本解码方案：研究如何通过修改attention计算方式或其他解码算法，实现更好的长文本生成外推能力，或提升长文本生成的效率。这包括如何处理长依赖关系、如何优化内存使用，以及如何在生成过程中保持高质量的输出。

更新于 2024-12-24杭州|上海