阿里云研究型实习生 - AI Frameworks系统软件前沿研究

实习兼职阿里云研究型实习生2025-06-03地点：杭州 | 上海状态：招聘

扫码手机上打开

任职要求

【我们期待这样的你】
面对这些激动人心的挑战，我们希望你：
·具备扎实的研究方法论：能够清晰定义问题，洞察问题本质，设定合理的解决方案评估标准与条件，进行系统性的实验设计与分析。
·拥有强大的动手能力与深入钻研精神：面对庞大而复杂的代码库，能够抽丝剥茧，快速理解系统和代码结构，定位瓶颈，找到关键突破口。
·具备坚实的计算机科学理论基础：熟悉操作系统、计算机体系结构，尤其是在分布式系统、并行计算以及GPU架构与编程（如CUDA）等领域有深入理解。
·有一定的系统编程经验：熟悉C++/Python等语言，有实际的系统开发或性能优化项目经验者优先。
·拥有强烈的自驱力、好奇心与正直的品格：对未知充满探索欲，能够主动学习新知识、新技能，并以严谨、诚实的态度对待研究与工作。
即使你并非在所有方面都完美匹配，但只要你…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

【我们是谁？】
阿里云智能是阿里巴巴集团的技术基石，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统（MLSys）的前沿研究与工程实践，特别是为“通义”系列大规模语言模型（LLM）的训练、推理提供坚实的系统支撑。在这里，你将有机会参与构建和优化支撑万亿参数级别模型的超级工程，直接影响亿万用户的AI体验。

【为什么这个机会不容错过？——来自工业界的真实挑战与机遇】
大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优，到低延迟高吞吐的推理服务和云上弹性部署，每一个环节都充满了挑战，也孕育着巨大的创新机会。我们认为，虽然算法创新是驱动力，但在LLM的整个生命周期中，系统扮演着至关重要的角色。

以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战：
1.超大规模预训练系统优化：追求极致效率与稳定性
·系统行为的深度洞察：在万卡集群并行训练的极致规模下，如何设计高效、低侵扰的追踪系统（Tracing System）以精准理解系统真实运行状态，本身就是一个难题。例如，仅网络层追踪就面临数据量爆炸性增长的挑战，如何在海量数据中高效提取关键信息，指导性能优化。
·并行策略的自动化与智能化：随着模型结构的快速迭代，如何针对新型架构自动设计并调整最优的并行策略（张量并行、流水线并行、数据并行、序列并行及其混合），在复杂的内存、计算、通信约束下取得最佳平衡，减少人工调优的巨大成本。
·大规模集群的韧性与容错：尽管我们拥有先进的异步、跨多级存储的Checkpointing机制，但GPU集群的故障（硬件、软件、网络等）仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力，最大限度减少故障影响，保障训练任务的连续性和效率。
2.后训练（RLHF等）中的算法-系统协同设计：提升“智能”的性价比
·复杂工作流的高效资源调度：后训练阶段（如RLHF）涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统，自动、高效地为这些任务分配和管理计算、存储、网络资源，以最小化总体资源消耗，或最大化单位资源投入下模型效果的提升“斜率”。
·算法与系统协同进化：后训练的算法仍在快速演进，如何设计灵活、可扩展的系统架构，以适应算法的不断变化，并反过来通过系统创新启发新的算法可能性。
3.云原生推理服务：敏捷、高效、经济地赋能万千应用
·多样化业务负载与SLA保障：云上推理业务场景丰富，客户对吞吐量、延迟、成本等有着不同的服务等级协议（SLA）要求。如何设计统一而灵活的推理服务系统，满足从离线批量推理到在线实时服务的各种需求。
·推理优化技术的敏捷集成与工程化：学术界和开源社区的推理优化技术（如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等）日新月异。如何构建一套敏捷的工程体系，快速评估、吸收、融合这些前沿技术，并将其稳定部署到在线服务中，持续提升推理效率。
·极致的资源弹性与成本效益：在云环境中，如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测，应对业务负载的剧烈波动，最大限度地减少空闲资源浪费，为用户提供最具成本效益的LLM服务。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

分布式系统+

CUDA+

还有更多 •••

登录查看完整学习资料

相关职位

XR Framework开发实习生-移动OS

实习A46508

ByteIntern：面向2026届毕业生（2025年9月-2026年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：专注于探索AI和智能硬件的结合，为用户提供更自然和便捷的交互体验的研发团队，隶属于产品研发与工程架构部。作为负责AI技术应用场景探索的部门，是字节在智能硬件领域提供综合方案研究的核心部门。我们欢迎期待心怀技术理想、不断挑战技术难题的“你”的加入，和顶尖团队一起参与技术攻坚，开启更多可能。 1、负责移动OS的引擎和框架研发工作； 2、负责创新型XR操作系统的相关技术调研，学习并应用新技术，提升产品力； 3、持续优化性能和打磨产品细节，提高产品体验； 4、与产品经理配合，参与产品需求讨论，功能定义，给出合理的技术方案等。

更新于 2025-01-20北京

研究型实习生-Agentic reasoning在AGI产品下的研究及落地

实习研究型实习生

研究领域：人工智能项目简介：在工业界以OpenAI o1、学术界以斯坦福大学的STaR为代表，目前推理能力成为大模型技术新的研究热点。与传统Next Token Predict的常规任务相比，推理过程中可以尝试更多可能性，借鉴强化学习中蒙特卡洛树搜索方法，在生成答案前深入思考，将CoT的思考过程在大模型的内部形成一条内部推理链。同时，将复杂步骤进行分步拆解，在中间尝试多种方法，帮助决策出最终答案。对于Aworld，定位是基于生成式AI技术开发的Agent Framework，一方面能帮助用户解答疑问，另一方面能解决用户在生活场景的实际问题。由于Aworld是一个开放域的对话场景，我们无法限制用户输入，用户的诉求非常丰富多样，并且具有非常多的长尾和个性化的查询属性，需要使用复杂的逻辑推理能力进行支持。例如："帮我在回家路上找个适合宝妈聚会的餐馆"、"一周的健身餐怎么吃"，其中涉及到路线规划、餐馆查询、饮食健康等多种方面的能力，还需要结合模型自身常识，推理出宝妈背后隐含的婴儿座、母婴室等潜在需求。这些需要大模型能够结合内部和外部的知识，在多种约束条件下，分步进行推理，对多种可能方案进行推理、常识、验证，直到找到最终答案，并且将答案呈现给用户。

上海|杭州

研究型实习生 - AI和LakeHouse时代的HTAP查询性能优化研究

实习阿里云研究型实习

Stonebraker在SIGMOD上对数据库发展20年进行了回顾：尽管过去二十年间KV、NoSQL、MapReduce等技术多次对SQL系统发起挑战，但其生命力却愈发蓬勃——这种""不断兼并挑战者""的韧性，恰恰印证了关系型数据库在数据管理领域的统治力。其根本的底层逻辑是：随着内存容量突破TB级、NVMe SSD延迟进入微秒时代，硬件工艺的指数级跃迁，曾经为性能瓶颈而生的专用数据处理系统（如OLAP、时序数据库）正呈现大一统趋势。 AI时代，人们比任何时候都更清醒地认识到——数据依然是驱动智能的核心，我们期待对底层研究富有激情的你共同探索数据处理的新范式。 1 期待你通过创新的方法实现SQL性能在新场景下的数量级的提升，将学术成果发表成CCF-A类论文，可进一步在阿里云落地和贡献给开源社区。 2 研究方向包括不限于： 1) 多模态HTAP数据分析性能加速； 2) SQL在多模态场景下的语义扩展； 3) 探索SQL执行引擎范式，突破code gen和向量化执行等上一代执行模式； 4）针对新硬件设计新的SQL算子和数据结构。

更新于 2025-07-02杭州

研究型实习生 - AI数据湖的多层智能缓存研究

实习阿里云研究型实习

1. 优化和设计AI数据湖场景下的多层智能缓存架构和算法，使系统具备缓存动态分级、冷热数据预测、智能数据迁移等能力； 2. 分析数据湖查询和AI训练场景的负载特征，构建特征库，支持缓存效果实时反馈、动态优化和应用闭环； 3. 撰写技术方案、实验报告及学术论文，参与专利申请； 4. 与团队协作，完成和现有系统的对接与测试。

更新于 2025-07-02杭州