【阿里云】研究型实习生 - 下一代AI大模型网络架构研究

实习A26382A

团队介绍：字节跳动基础架构团队主要负责公司云基础建设，支撑着字节跳动旗下多款APP产品，如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等，同时也负责支持火山引擎公有云业务。迄今为止，我们通过云技术管理着百万量级的服务器构成的超大数据中心；我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务；我们还通过丰富的存储产品矩阵，如NewSQL、NoSQL、云存储等治理EB级的数据资产；我们积极拥抱开源和创新的软硬件架构，致力于构建业界领先的云基础设施，为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。课题介绍：课题背景：在大语言模型蓬勃发展的当下，本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究，旨在全面提升云服务在 AI 场景下的综合性能与效率。课题挑战： 1、新一代搜索型数据库：当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级，突破关键词匹配限制，以满足学术研究等领域对语义理解和精准检索的要求；具备处理和融合多模态数据的能力，应对互联网图像、音视频多模态数据的爆发式增长；优化检索过程，更好地支持检索增强生成（RAG）技术，为语言模型提供优质信息；同时，需应对各行业海量数据存储检索压力，提升搜索实时性与跨语言能力； 2、面向LLM的下一代智能云基础架构：一方面，自动化和智能化管理基础架构各系统生命周期，深度融合人工智能与基础架构关键系统，建设大规模LLM for Infra 服务；另一方面，针对新涌现的LLM应用场景，在基础架构各个领域进行前沿技术创新，与字节工程团队合作，设计和开发高性价比且简单易用的下一代大模型基础架构，为火山引擎奠定技术与业务增长基础； 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究：大模型时代数据量爆炸式增长，当前文件系统多采用中心化元数据架构，难以水平扩展，限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS（性能租户隔离和目录隔离）、故障处理（故障域隔离和故障无损）以及研发高性能客户端（用户态文件协议和DPU卸载）等关键技术展开； 4、面向大规模AI集群的高速通信和稳定性优化：随着大模型训练/推理业务规模增长，底层高速网络面临挑战。一方面，需解决GPU服务器硬件资源利用率偏低问题，包括充分利用CPU和内存空闲资源，以及研发计算通信融合的高性能集合通信库，实现通信算子与计算任务的深度融合；另一方面，在稳定性方面，提升故障快速发现和根因定位能力，解决网络吞吐不达预期等典型故障。

更新于 2025-02-28杭州

智能系统研究实习生-基础架构-筋斗云人才计划

实习A140273A

团队介绍：字节跳动基础架构团队主要负责公司云基础建设，支撑着字节跳动旗下多款APP产品，如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等，同时也负责支持火山引擎公有云业务。迄今为止，我们通过云技术管理着百万量级的服务器构成的超大数据中心；我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务；我们还通过丰富的存储产品矩阵，如NewSQL、NoSQL、云存储等治理EB级的数据资产；我们积极拥抱开源和创新的软硬件架构，致力于构建业界领先的云基础设施，为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。课题介绍：课题背景：在大语言模型蓬勃发展的当下，本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究，旨在全面提升云服务在 AI 场景下的综合性能与效率。课题挑战： 1、新一代搜索型数据库：当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级，突破关键词匹配限制，以满足学术研究等领域对语义理解和精准检索的要求；具备处理和融合多模态数据的能力，应对互联网图像、音视频多模态数据的爆发式增长；优化检索过程，更好地支持检索增强生成（RAG）技术，为语言模型提供优质信息；同时，需应对各行业海量数据存储检索压力，提升搜索实时性与跨语言能力； 2、面向LLM的下一代智能云基础架构：一方面，自动化和智能化管理基础架构各系统生命周期，深度融合人工智能与基础架构关键系统，建设大规模LLM for Infra 服务；另一方面，针对新涌现的LLM应用场景，在基础架构各个领域进行前沿技术创新，与字节工程团队合作，设计和开发高性价比且简单易用的下一代大模型基础架构，为火山引擎奠定技术与业务增长基础； 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究：大模型时代数据量爆炸式增长，当前文件系统多采用中心化元数据架构，难以水平扩展，限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS（性能租户隔离和目录隔离）、故障处理（故障域隔离和故障无损）以及研发高性能客户端（用户态文件协议和DPU卸载）等关键技术展开； 4、面向大规模AI集群的高速通信和稳定性优化：随着大模型训练/推理业务规模增长，底层高速网络面临挑战。一方面，需解决GPU服务器硬件资源利用率偏低问题，包括充分利用CPU和内存空闲资源，以及研发计算通信融合的高性能集合通信库，实现通信算子与计算任务的深度融合；另一方面，在稳定性方面，提升故障快速发现和根因定位能力，解决网络吞吐不达预期等典型故障。

更新于 2025-02-28北京

智能系统研究实习生-基础架构-筋斗云人才计划

实习A65469A

团队介绍：字节跳动基础架构团队主要负责公司云基础建设，支撑着字节跳动旗下多款APP产品，如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等，同时也负责支持火山引擎公有云业务。迄今为止，我们通过云技术管理着百万量级的服务器构成的超大数据中心；我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务；我们还通过丰富的存储产品矩阵，如NewSQL、NoSQL、云存储等治理EB级的数据资产；我们积极拥抱开源和创新的软硬件架构，致力于构建业界领先的云基础设施，为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。课题介绍：课题背景：在大语言模型蓬勃发展的当下，本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究，旨在全面提升云服务在 AI 场景下的综合性能与效率。课题挑战： 1、新一代搜索型数据库：当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级，突破关键词匹配限制，以满足学术研究等领域对语义理解和精准检索的要求；具备处理和融合多模态数据的能力，应对互联网图像、音视频多模态数据的爆发式增长；优化检索过程，更好地支持检索增强生成（RAG）技术，为语言模型提供优质信息；同时，需应对各行业海量数据存储检索压力，提升搜索实时性与跨语言能力； 2、面向LLM的下一代智能云基础架构：一方面，自动化和智能化管理基础架构各系统生命周期，深度融合人工智能与基础架构关键系统，建设大规模LLM for Infra 服务；另一方面，针对新涌现的LLM应用场景，在基础架构各个领域进行前沿技术创新，与字节工程团队合作，设计和开发高性价比且简单易用的下一代大模型基础架构，为火山引擎奠定技术与业务增长基础； 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究：大模型时代数据量爆炸式增长，当前文件系统多采用中心化元数据架构，难以水平扩展，限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS（性能租户隔离和目录隔离）、故障处理（故障域隔离和故障无损）以及研发高性能客户端（用户态文件协议和DPU卸载）等关键技术展开； 4、面向大规模AI集群的高速通信和稳定性优化：随着大模型训练/推理业务规模增长，底层高速网络面临挑战。一方面，需解决GPU服务器硬件资源利用率偏低问题，包括充分利用CPU和内存空闲资源，以及研发计算通信融合的高性能集合通信库，实现通信算子与计算任务的深度融合；另一方面，在稳定性方面，提升故障快速发现和根因定位能力，解决网络吞吐不达预期等典型故障。

更新于 2025-02-28深圳

智能系统研究实习生-基础架构-筋斗云人才计划

实习A11666

团队介绍：字节跳动基础架构团队主要负责公司云基础建设，支撑着字节跳动旗下多款APP产品，如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等，同时也负责支持火山引擎公有云业务。迄今为止，我们通过云技术管理着百万量级的服务器构成的超大数据中心；我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务；我们还通过丰富的存储产品矩阵，如NewSQL、NoSQL、云存储等治理EB级的数据资产；我们积极拥抱开源和创新的软硬件架构，致力于构建业界领先的云基础设施，为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。课题介绍：课题背景：在大语言模型蓬勃发展的当下，本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究，旨在全面提升云服务在 AI 场景下的综合性能与效率。课题挑战： 1、新一代搜索型数据库：当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级，突破关键词匹配限制，以满足学术研究等领域对语义理解和精准检索的要求；具备处理和融合多模态数据的能力，应对互联网图像、音视频多模态数据的爆发式增长；优化检索过程，更好地支持检索增强生成（RAG）技术，为语言模型提供优质信息；同时，需应对各行业海量数据存储检索压力，提升搜索实时性与跨语言能力； 2、面向LLM的下一代智能云基础架构：一方面，自动化和智能化管理基础架构各系统生命周期，深度融合人工智能与基础架构关键系统，建设大规模工业级Self-Driving Infra平台；另一方面，针对新涌现的LLM应用场景，在基础架构各个领域进行前沿技术创新，与字节工程团队合作，设计和开发高性价比且简单易用的下一代大模型基础架构，为火山引擎奠定技术与业务增长基础； 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究：大模型时代数据量爆炸式增长，当前文件系统多采用中心化元数据架构，难以水平扩展，限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS（性能租户隔离和目录隔离）、故障处理（故障域隔离和故障无损）以及研发高性能客户端（用户态文件协议和DPU卸载）等关键技术展开； 4、面向大规模AI集群的高速通信和稳定性优化：随着大模型训练/推理业务规模增长，底层高速网络面临挑战。一方面，需解决GPU服务器硬件资源利用率偏低问题，包括充分利用CPU和内存空闲资源，以及研发计算通信融合的高性能集合通信库，实现通信算子与计算任务的深度融合；另一方面，在稳定性方面，提升故障快速发现和根因定位能力，解决网络吞吐不达预期等典型故障。

更新于 2025-02-28上海

阿里云研究型实习生 - 下一代AI大模型网络架构研究

任职要求

工作职责