字节跳动【实习】面向大模型与AI Agent的AI云原生基础设施关键技术研究-计算
任职要求
1、2027届及以后毕业,博士在读,人工智能、计算机科学、数学相关专业优先; 2、拥有扎实的信息检索、数据挖掘、机器学习、计算机网络等相关领域理论基础,精通计算机网络和网络编程,熟练掌握至少一门主流编程语言,如C/C++、Python、Go等,具备优秀的代码能力、数据结构和基础算法功底; 3、针对不同研究方向,需具备相应能力,如能够独立完成复杂搜索任务的设计与开发;有LLM和基础架构相关研究背景;能完成研究点的设计文档、独立交付件、演示Demo…
工作职责
团队介绍:字节跳动基础设施计算团队,专注构建面向大模型与 AI Agent 时代的 AI-Native Infra。我们从算力、系统到平台,围绕“AI 如何高效运行、持续进化、规模化落地”这一核心问题,重构计算基础设施。我们管理着数十万台服务器组成的超大规模集群,构建统一的异构算力调度与云原生运行体系;通过软硬协同与自研框架,持续突破大模型训练与推理的性能瓶颈;并进一步向上,打造企业级 AI Agent Infra,让 Agent 具备身份、权限、记忆、观测与治理能力,真正成为可运行在生产环境中的新型“应用形态”。 从云服务器、容器、函数,到 AI 网关、可观测与弹性体系,我们构建的是一个为 AI 而生、由 AI 驱动进化的基础设施平台,支撑集团核心业务与企业级客户的智能化升级。 如果你希望参与定义 AI 时代的 Infra 范式,而不仅是优化一个模块或服务——欢迎加入我们,一起构建下一代 AI 云原生基础设施。 课题介绍: 随着大语言模型与AI Agent规模化落地,传统云原生基础设施已难以适配AI负载的极致性能与弹性需求。本课题围绕AI基础设施全栈展开系统性研究: 1、网络与可观测:研究大规模AI集群故障智能定位与根因分析,结合时序数据库智能调优,提升集群稳定性; 2、存储系统:研发AI场景专属的Serverless高性能弹性文件系统与存储加速架构,探索DPU软硬件协同优化,突破AI存储性能瓶颈; 3、算力调度:研究GPU/CPU/MEM异构协同调度技术,面向AI Agent构建Serverless异构算力编排系统,解决负载异构、状态依赖等调度难题; 4、向量检索:优化面向大模型应用的向量检索核心技术,打造云原生分布式向量索引引擎,满足超大规模向量检索的低延迟、低成本需求; 5、智能化与Agent架构:探索基于AI Agent工作流的基础设施自动寻优,构建可自主进化的业务Agent框架,通过AI for Infra赋能全栈智能优化; 本课题旨在构建支撑大模型与AI Agent落地的下一代AI原生基础设施,提升资源利用率、降低成本、支撑弹性扩展,推动AI基础设施技术演进。 课题挑战: 1、全栈协同挑战:覆盖多技术领域,需要从端到端视角实现系统性优化,避免单点优化收益不足; 2、性能成本平衡:AI场景对性能提出极致要求,需要在吞吐、延迟、规模与成本之间找到最优平衡点; 3、云原生适配:需要将传统单机技术方案重构为适配云原生分布式架构,解决扩缩容、容错、调度等新问题; 4、AI系统融合:既需要用AI赋能基础设施优化,又需要基础设施原生适配AI负载,深度融合对技术整合要求高; 5、Agent稳定性:自主进化Agent框架需要解决经验学习、知识一致性、持续安全进化等基础问题,工程化难度大; 6、研发生态平衡:需要平衡前沿理论创新与工程落地,兼顾技术突破与现有业务生态适配。 课题价值: 1、构建大模型/RAG 场景的高性能基础设施底座,支撑大规模向量数据高效检索; 2、优化AI业务存储成本结构与运维复杂度; 3、提升异构算力资源配置效率与技术复用性。
负责面向安全业务场景的大模型能力建设,包括但不限于以下方向: 1. AI for security,利用AI技术增强网络安全和数据保护等领域的防御能力。在自动化威胁检测、分析和响应、DevSecOps等场景提升效率和攻防对抗能力; 2. Security for AI,保护AI应用系统安全,保护其免受攻击和滥用。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。 1、协助大模型应用开发:在资深工程师的指导下,参与大模型相关应用的开发工作,如知识助手等,负责应用的调试与优化; 2、数据处理与分析:协助进行模型训练数据的收集、整理、标注工作,并对数据进行分析,提升应用的准确性; 3、问题排查与解决:在应用开发过程中,及时发现并记录遇到的技术问题,对于无法解决的问题,及时上报,协助定位和修复问题; 4、智能体搭建:参与AI Agent项目交付工作,包括智能体设计、搭建以及调优、工作流建设。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动系统部,负责字节跳动从芯片到服务器、操作系统、网络、CDN 、数据中心等基础设施的研发、设计、采购、交付与运营管理,为包含抖音、头条、火山引擎等全球业务提供高效、稳定、具备可扩展性的基础设施。部门当前业务开展包括不限于:数据中心设计建设、芯片研发、服务器研发、网络工程研发、火山引擎边缘云业务、高性能智能硬件研发、IDC资源智能交付与运维、硬件基础设施智能监控与预警、操作系统与内核、虚拟化技术、编译工具链、供应链管理等众多基础设施相关方向。 1、协助供应链相关基础数据建设,确保数据准确、及时、安全、可信,并做到对业务数据需求的快速响应和高质量交付; 2、深入理解字节跳动数据中心供应链业务细节,挖掘供应链提效场景的AI应用机会,协同完成大模型应用策略制定,通过跨团队协作推动大模型应用的高质量落地和迭代优化,提升供应链业务运营效率,实现技术价值向业务价值的高效转化; 3、具备对AI前沿技术发展的敏锐度,持续跟进LLM领域的最新技术趋势,定期输出高质量研究报告,结合实际业务场景,提供创新性解决方案,并推动现有技术的迭代升级。
日常实习:面向全体在校生,为符合岗位要求的同学提供为期3个月及以上的项目实践机会。 团队介绍:字节跳动系统部,负责字节跳动从芯片到服务器、操作系统、网络、CDN 、数据中心等基础设施的研发、设计、采购、交付与运营管理,为包含抖音、头条、火山引擎等全球业务提供高效、稳定、具备可扩展性的基础设施。部门当前业务开展包括不限于:数据中心设计建设、芯片研发、服务器研发、网络工程研发、火山引擎边缘云业务、高性能智能硬件研发、IDC资源智能交付与运维、硬件基础设施智能监控与预警、操作系统与内核、虚拟化技术、编译工具链、供应链管理等众多基础设施相关方向。 1、协助供应链相关基础数据建设,确保数据准确、及时、安全、可信,并做到对业务数据需求的快速响应和高质量交付; 2、深入理解字节跳动数据中心供应链业务细节,挖掘供应链提效场景的AI应用机会,协同完成大模型应用策略制定,通过跨团队协作推动大模型应用的高质量落地和迭代优化,提升供应链业务运营效率,实现技术价值向业务价值的高效转化; 3、具备对AI前沿技术发展的敏锐度,持续跟进LLM领域的最新技术趋势,定期输出高质量研究报告,结合实际业务场景,提供创新性解决方案,并推动现有技术的迭代升级。