蚂蚁金服研究型实习生-大规模训练自动并行技术研究

实习兼职研究型实习生地点：北京 | 杭州状态：招聘

扫码手机上打开

任职要求

研究领域：
-目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位
-具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go
-具有上述研究领域的…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

研究领域：
  机器学习
项目简介：
  目前大安全的大模型训练需求，在多种因素层面都有很大差异，如模型规模方面从7B到671B不等、上下文长度从1K到128K不等、模型结构包含Dense和MoE，此外，考虑到训练资源高效调度与复用的前提，每次训练获得的机器和GPU的规格也会动态变化。另一方面，超大权重规模的大模型训练往往采用多种并行技术相结合的方式，如数据并行、模型并行、张量并行、流水线并行、专家并行、序列并行等。因此，对于不同的模型结构和不同的资源规格，如何找到最佳的并行参数组合使训练效果和效率达到最优，成为一个日趋复杂的业界难题，目前的训练框架具备基础的并行技术自动规划能力，但仍然以人工经验为主进行调优，此问题在大规模训练情况下尤其突出，往往消耗大量人工精力进行反复试错。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

Java+

C+

还有更多 •••

登录查看完整学习资料

相关职位

研究型实习生 - AI Frameworks系统软件前沿研究

实习阿里云研究型实习

【我们是谁？】阿里云智能是阿里巴巴集团的技术基石，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统（MLSys）的前沿研究与工程实践，特别是为“通义”系列大规模语言模型（LLM）的训练、推理提供坚实的系统支撑。在这里，你将有机会参与构建和优化支撑万亿参数级别模型的超级工程，直接影响亿万用户的AI体验。【为什么这个机会不容错过？——来自工业界的真实挑战与机遇】大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优，到低延迟高吞吐的推理服务和云上弹性部署，每一个环节都充满了挑战，也孕育着巨大的创新机会。我们认为，虽然算法创新是驱动力，但在LLM的整个生命周期中，系统扮演着至关重要的角色。以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战： 1.超大规模预训练系统优化：追求极致效率与稳定性 ·系统行为的深度洞察：在万卡集群并行训练的极致规模下，如何设计高效、低侵扰的追踪系统（Tracing System）以精准理解系统真实运行状态，本身就是一个难题。例如，仅网络层追踪就面临数据量爆炸性增长的挑战，如何在海量数据中高效提取关键信息，指导性能优化。 ·并行策略的自动化与智能化：随着模型结构的快速迭代，如何针对新型架构自动设计并调整最优的并行策略（张量并行、流水线并行、数据并行、序列并行及其混合），在复杂的内存、计算、通信约束下取得最佳平衡，减少人工调优的巨大成本。 ·大规模集群的韧性与容错：尽管我们拥有先进的异步、跨多级存储的Checkpointing机制，但GPU集群的故障（硬件、软件、网络等）仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力，最大限度减少故障影响，保障训练任务的连续性和效率。 2.后训练（RLHF等）中的算法-系统协同设计：提升“智能”的性价比 ·复杂工作流的高效资源调度：后训练阶段（如RLHF）涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统，自动、高效地为这些任务分配和管理计算、存储、网络资源，以最小化总体资源消耗，或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化：后训练的算法仍在快速演进，如何设计灵活、可扩展的系统架构，以适应算法的不断变化，并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务：敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障：云上推理业务场景丰富，客户对吞吐量、延迟、成本等有着不同的服务等级协议（SLA）要求。如何设计统一而灵活的推理服务系统，满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化：学术界和开源社区的推理优化技术（如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等）日新月异。如何构建一套敏捷的工程体系，快速评估、吸收、融合这些前沿技术，并将其稳定部署到在线服务中，持续提升推理效率。 ·极致的资源弹性与成本效益：在云环境中，如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测，应对业务负载的剧烈波动，最大限度地减少空闲资源浪费，为用户提供最具成本效益的LLM服务。

更新于 2025-06-03杭州|上海

AI Infra实习生-训练方向（研究型）

实习日常实习生

作为研究型实习生，你将加入公司大模型训练加速方向的研究团队，参与超大规模场景下，文本和多模态领域 pre/post/alignment 方向上的高效训练相关的前沿策略和工程实现工作。该岗位以科研驱动为主，进行理论研究、策略设计、工程原型与实验评估，并鼓励发表顶会/期刊论文与开源贡献。 1、研究RL场景加速技术，探索前沿的训推分离、梯度压缩、通信压缩、计算压缩相关技术，改进RL场景不同模型的训练效率，提升e2e吞吐达到业界SOTA水平； 2、研究前沿的pretrain加速技术，探索不同模态下的 IO/流水调度/算子融合/低精度量化等加速策略，改进超大规模训练下训练效率，提升MFU； 3、研究大模型训练策略自动寻优技术，通过模型显存、计算、通信自动化分析和模拟，实现不同模型在不同硬件、不同规模下的训练性能最大化； 4、将研究成果落地为可复现的工程原型，集成/对接业界主流的开源训练框架(megatron/veRL); 5、撰写技术报告与论文，与团队成员及外部学术界保持沟通交流；

更新于 2025-08-20广州|杭州

研究型实习生-面向未来软件工程全链路智能化的Multi-Coding-Agent

实习通义研究型实习生

在大模型技术日臻成熟与广泛应用的背景下，自动代码生成的研究步入了一个全新的阶段。近年来，随着大规模预训练语言模型（如GPT系列、通义千问系列）的突破性发展，以及多智能体系统(Multi-Agent Systems, MAS)在复杂环境决策和协同任务处理中的深入探索，如何结合这两者的优点，构建具备高度环境感知能力的Code Multi-Agent系统，已成为软件工程和人工智能交叉领域的重要课题。因此，针对Code Multi-Agent系统在项目环境感知方面的研究，不仅能够填补现有工具在智能化程度上的空白，更有望引领软件工程实践进入一个崭新的自动化与智能化时代。

更新于 2025-02-08北京|杭州

研究型实习生-国际跨境交易场景AI及智能体技术应用

实习研究型实习生

研究领域：人工智能项目简介：蚂蚁国际当前处于全球化和AI规模化应用的战略关键节点中，为支持多条业务线的业务规模化增长，蚂蚁国际风控致力于AI的创新及其在风控场景的应用。应用场景包括但不限于基于多智能体的风控决策系统， Deepfake识别，风控深度推理大模型等解决实际业务痛点。团队鼓励创新，勇于探索及突破前沿AI能力边界。 1.负责foundation model和生成式AI智能体构建，追踪业界文本生成、思维学习、内容理解等方向的最新技术，极致优化预训练、微调、领域知识注入、RLHF、RM、AI可解释能力。 2.负责AI技术前沿技术跟踪、创新和落地，例如，利用意图理解、图文理解等构建新一代的生成式审核机器人与辅助系统，运用反馈标注、知识体系建设、知识图谱构建等任务；利用多模态技术对图像、文本、结构化数据进行融合学习，致力于挖掘风控场景问题并全面提升风险运营效率，并帮助实现对合规、欺诈、洗钱等风险的高效管控。 3.深入跟踪调研前沿技术方向，包括但不限于 NLP/CV/多模态/智能体等，并适时进行技术分享。推动相关领域技术创新，进行专利申请和学术文章发表，产出至少一篇CCF-A以上论文。

上海