字节跳动算法实习生（统一存储）-集团信息系统

实习兼职A205672026-01-26地点：深圳状态：招聘

扫码手机上打开

任职要求

1、2027届本科及以上学历在读，有人工智能、计算机、软件工程等相关专业优先；
2、具备扎实的算法基础，包括但不限于NLP、深度学习、大模型等特定领域的全面学习和实践经验；
3、具备AI Agent开发经验，熟悉Prompt Enginee…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。
团队介绍：集团信息系统部（Corporate Information System）负责字节跳动信息系统建设。通过构建领先的信息系统，助力公司业务和组织的长期高效经营与发展。与此同时，在安全、隐私、合规层面持续治理，为公司的稳健发展保驾护航。字节跳动的业务模式复杂，用户规模大。到现在，集团信息系统部已经覆盖人事、财务、法务、采购、审批、职场等多个领域，隐私安全工作同步开展，AIGC创新孵化也在逐步落地实现。

1、参与Data Agent架构设计与实现，主要包括Agent架构优化、上下文工程、NL2DSL/NL2Code、效果自动化评估；
2、持续跟进AI与大模型领域技术发展趋势，结合相关实际业务场景引入新技术和新方案，推动团队技术体系的持续迭代升级，支撑业务规模化发展；
3、参与集团内部Data Agent产品技术选型、方案设计、效果优化等，优化AI取数效果，服务集团内部各业务场景。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

算法+

NLP+

深度学习+

大模型+

AI agent+

Prompt+

还有更多 •••

登录查看完整学习资料

相关职位

后端研发实习生（统一存储）-集团信息系统

实习A225844

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队介绍：集团信息系统部（Corporate Information System）负责字节跳动信息系统建设。通过构建领先的信息系统，助力公司业务和组织的长期高效经营与发展。与此同时，在安全、隐私、合规层面持续治理，为公司的稳健发展保驾护航。字节跳动的业务模式复杂，用户规模大。到现在，集团信息系统部已经覆盖人事、财务、法务、采购、审批、职场等多个领域，隐私安全工作同步开展，AIGC创新孵化也在逐步落地实现。 1、参与平台产品的服务端研发工作，推动业务的快速发展和高效迭代； 2、参与系统架构设计、优化，提升系统性能和开发效率，保证设计和编码的质量； 3、协助团队攻克各种高并发、系统解耦等方面的技术难关； 4、参与各专项技术调研，新技术引入等前瞻项目。

更新于 2026-01-26深圳

后端研发实习生（统一存储）-集团信息系统

实习A115038

ByteIntern：面向2027届毕业生（2026年9月-2027年8月期间毕业），为符合岗位要求的同学提供转正机会。团队及介绍：集团信息系统部（Corporate Information System）负责字节跳动信息系统建设。通过构建领先的信息系统，助力公司业务和组织的长期高效经营与发展。与此同时，在安全、隐私、合规层面持续治理，为公司的稳健发展保驾护航。字节跳动的业务模式复杂，用户规模大。到现在，集团信息系统部已经覆盖人事、财务、法务、采购、审批、职场等多个领域，隐私安全工作同步开展，AIGC创新孵化也在逐步落地实现。 1、参与平台产品的服务端研发工作，推动业务的快速发展和高效迭代； 2、参与系统架构设计、优化，提升系统性能和开发效率，保证设计和编码的质量； 3、协助团队攻克各种高并发、系统解耦等方面的技术难关； 4、参与各专项技术调研，新技术引入等前瞻项目。

更新于 2026-01-26深圳

研究型实习生 - AI Frameworks系统软件前沿研究

实习阿里云研究型实习

【我们是谁？】阿里云智能是阿里巴巴集团的技术基石，致力于以在线公共服务的方式，提供安全、可靠的计算和数据处理能力。我们的团队专注于机器学习系统（MLSys）的前沿研究与工程实践，特别是为“通义”系列大规模语言模型（LLM）的训练、推理提供坚实的系统支撑。在这里，你将有机会参与构建和优化支撑万亿参数级别模型的超级工程，直接影响亿万用户的AI体验。【为什么这个机会不容错过？——来自工业界的真实挑战与机遇】大规模语言模型的研发是一项复杂的端到端系统工程。从海量数据的高效处理、万卡集群的分布式训练、精细化的后训练调优，到低延迟高吞吐的推理服务和云上弹性部署，每一个环节都充满了挑战，也孕育着巨大的创新机会。我们认为，虽然算法创新是驱动力，但在LLM的整个生命周期中，系统扮演着至关重要的角色。以下是我们正在“通义”大模型及相关场景下积极探索并期待与你共同攻克的挑战： 1.超大规模预训练系统优化：追求极致效率与稳定性 ·系统行为的深度洞察：在万卡集群并行训练的极致规模下，如何设计高效、低侵扰的追踪系统（Tracing System）以精准理解系统真实运行状态，本身就是一个难题。例如，仅网络层追踪就面临数据量爆炸性增长的挑战，如何在海量数据中高效提取关键信息，指导性能优化。 ·并行策略的自动化与智能化：随着模型结构的快速迭代，如何针对新型架构自动设计并调整最优的并行策略（张量并行、流水线并行、数据并行、序列并行及其混合），在复杂的内存、计算、通信约束下取得最佳平衡，减少人工调优的巨大成本。 ·大规模集群的韧性与容错：尽管我们拥有先进的异步、跨多级存储的Checkpointing机制，但GPU集群的故障（硬件、软件、网络等）仍会导致训练中断和时间浪费。如何进一步提升系统的容错恢复能力，最大限度减少故障影响，保障训练任务的连续性和效率。 2.后训练（RLHF等）中的算法-系统协同设计：提升“智能”的性价比 ·复杂工作流的高效资源调度：后训练阶段（如RLHF）涉及采样、训练、评估等多个计算特点各异的任务。如何设计智能调度系统，自动、高效地为这些任务分配和管理计算、存储、网络资源，以最小化总体资源消耗，或最大化单位资源投入下模型效果的提升“斜率”。 ·算法与系统协同进化：后训练的算法仍在快速演进，如何设计灵活、可扩展的系统架构，以适应算法的不断变化，并反过来通过系统创新启发新的算法可能性。 3.云原生推理服务：敏捷、高效、经济地赋能万千应用 ·多样化业务负载与SLA保障：云上推理业务场景丰富，客户对吞吐量、延迟、成本等有着不同的服务等级协议（SLA）要求。如何设计统一而灵活的推理服务系统，满足从离线批量推理到在线实时服务的各种需求。 ·推理优化技术的敏捷集成与工程化：学术界和开源社区的推理优化技术（如量化、剪枝、FlashAttention、PagedAttention、投机采样、模型编译等）日新月异。如何构建一套敏捷的工程体系，快速评估、吸收、融合这些前沿技术，并将其稳定部署到在线服务中，持续提升推理效率。 ·极致的资源弹性与成本效益：在云环境中，如何通过精细化的资源调度、高效的多租户管理以及智能的流量预测，应对业务负载的剧烈波动，最大限度地减少空闲资源浪费，为用户提供最具成本效益的LLM服务。

更新于 2025-06-03杭州|上海

【实习】面向大模型与AI Agent的AI云原生基础设施关键技术研究-计算

实习A52265

团队介绍：字节跳动基础设施计算团队，专注构建面向大模型与 AI Agent 时代的 AI-Native Infra。我们从算力、系统到平台，围绕“AI 如何高效运行、持续进化、规模化落地”这一核心问题，重构计算基础设施。我们管理着数十万台服务器组成的超大规模集群，构建统一的异构算力调度与云原生运行体系；通过软硬协同与自研框架，持续突破大模型训练与推理的性能瓶颈；并进一步向上，打造企业级 AI Agent Infra，让 Agent 具备身份、权限、记忆、观测与治理能力，真正成为可运行在生产环境中的新型“应用形态”。从云服务器、容器、函数，到 AI 网关、可观测与弹性体系，我们构建的是一个为 AI 而生、由 AI 驱动进化的基础设施平台，支撑集团核心业务与企业级客户的智能化升级。如果你希望参与定义 AI 时代的 Infra 范式，而不仅是优化一个模块或服务——欢迎加入我们，一起构建下一代 AI 云原生基础设施。课题介绍：随着大语言模型与AI Agent规模化落地，传统云原生基础设施已难以适配AI负载的极致性能与弹性需求。本课题围绕AI基础设施全栈展开系统性研究： 1、网络与可观测：研究大规模AI集群故障智能定位与根因分析，结合时序数据库智能调优，提升集群稳定性； 2、存储系统：研发AI场景专属的Serverless高性能弹性文件系统与存储加速架构，探索DPU软硬件协同优化，突破AI存储性能瓶颈； 3、算力调度：研究GPU/CPU/MEM异构协同调度技术，面向AI Agent构建Serverless异构算力编排系统，解决负载异构、状态依赖等调度难题； 4、向量检索：优化面向大模型应用的向量检索核心技术，打造云原生分布式向量索引引擎，满足超大规模向量检索的低延迟、低成本需求； 5、智能化与Agent架构：探索基于AI Agent工作流的基础设施自动寻优，构建可自主进化的业务Agent框架，通过AI for Infra赋能全栈智能优化；本课题旨在构建支撑大模型与AI Agent落地的下一代AI原生基础设施，提升资源利用率、降低成本、支撑弹性扩展，推动AI基础设施技术演进。课题挑战： 1、全栈协同挑战：覆盖多技术领域，需要从端到端视角实现系统性优化，避免单点优化收益不足； 2、性能成本平衡：AI场景对性能提出极致要求，需要在吞吐、延迟、规模与成本之间找到最优平衡点； 3、云原生适配：需要将传统单机技术方案重构为适配云原生分布式架构，解决扩缩容、容错、调度等新问题； 4、AI系统融合：既需要用AI赋能基础设施优化，又需要基础设施原生适配AI负载，深度融合对技术整合要求高； 5、Agent稳定性：自主进化Agent框架需要解决经验学习、知识一致性、持续安全进化等基础问题，工程化难度大； 6、研发生态平衡：需要平衡前沿理论创新与工程落地，兼顾技术突破与现有业务生态适配。课题价值： 1、构建大模型/RAG 场景的高性能基础设施底座，支撑大规模向量数据高效检索； 2、优化AI业务存储成本结构与运维复杂度； 3、提升异构算力资源配置效率与技术复用性。

更新于 2026-04-15上海