字节跳动面向大模型与AI Agent的AI云原生基础设施关键技术研究-计算
任职要求
1、2027届毕业,获得博士学位,优先考虑人工智能、计算机科学、数学相关专业; 2、拥有扎实的信息检索、数据挖掘、机器学习、计算机网络等相关领域理论基础,精通计算机网络和网络编程,熟练掌握至少一门主流编程语言,如C/C++、Python、Go等,具备优秀的代码能力、数据结构和基础算法功底; 3、针对不同研究方向,需具备相应能力,如能够独立完成复杂搜索任务的设计与开发;有LLM和基础架构相关研究背景;能完成研究点的设计文档、独立交付件、演示Dem…
工作职责
团队介绍:字节跳动基础设施计算团队,专注构建面向大模型与 AI Agent 时代的 AI-Native Infra。我们从算力、系统到平台,围绕“AI 如何高效运行、持续进化、规模化落地”这一核心问题,重构计算基础设施。我们管理着数十万台服务器组成的超大规模集群,构建统一的异构算力调度与云原生运行体系;通过软硬协同与自研框架,持续突破大模型训练与推理的性能瓶颈;并进一步向上,打造企业级 AI Agent Infra,让 Agent 具备身份、权限、记忆、观测与治理能力,真正成为可运行在生产环境中的新型“应用形态”。 从云服务器、容器、函数,到 AI 网关、可观测与弹性体系,我们构建的是一个为 AI 而生、由 AI 驱动进化的基础设施平台,支撑集团核心业务与企业级客户的智能化升级。 如果你希望参与定义 AI 时代的 Infra 范式,而不仅是优化一个模块或服务——欢迎加入我们,一起构建下一代 AI 云原生基础设施。 课题介绍: 随着大语言模型与AI Agent规模化落地,传统云原生基础设施已难以适配AI负载的极致性能与弹性需求。本课题围绕AI基础设施全栈展开系统性研究: 1、网络与可观测:研究大规模AI集群故障智能定位与根因分析,结合时序数据库智能调优,提升集群稳定性; 2、存储系统:研发AI场景专属的Serverless高性能弹性文件系统与存储加速架构,探索DPU软硬件协同优化,突破AI存储性能瓶颈; 3、算力调度:研究GPU/CPU/MEM异构协同调度技术,面向AI Agent构建Serverless异构算力编排系统,解决负载异构、状态依赖等调度难题; 4、向量检索:优化面向大模型应用的向量检索核心技术,打造云原生分布式向量索引引擎,满足超大规模向量检索的低延迟、低成本需求; 5、智能化与Agent架构:探索基于AI Agent工作流的基础设施自动寻优,构建可自主进化的业务Agent框架,通过AI for Infra赋能全栈智能优化; 本课题旨在构建支撑大模型与AI Agent落地的下一代AI原生基础设施,提升资源利用率、降低成本、支撑弹性扩展,推动AI基础设施技术演进。 课题挑战: 1、全栈协同挑战:覆盖多技术领域,需要从端到端视角实现系统性优化,避免单点优化收益不足; 2、性能成本平衡:AI场景对性能提出极致要求,需要在吞吐、延迟、规模与成本之间找到最优平衡点; 3、云原生适配:需要将传统单机技术方案重构为适配云原生分布式架构,解决扩缩容、容错、调度等新问题; 4、AI系统融合:既需要用AI赋能基础设施优化,又需要基础设施原生适配AI负载,深度融合对技术整合要求高; 5、Agent稳定性:自主进化Agent框架需要解决经验学习、知识一致性、持续安全进化等基础问题,工程化难度大; 6、研发生态平衡:需要平衡前沿理论创新与工程落地,兼顾技术突破与现有业务生态适配。 课题价值: 1、构建大模型/RAG 场景的高性能基础设施底座,支撑大规模向量数据高效检索; 2、优化AI业务存储成本结构与运维复杂度; 3、提升异构算力资源配置效率与技术复用性。
1. 负责金融行业技术架构解决方案设计,重点满足客户IaaS、PaaS、智算等技术架构方面需求,依托阿里巴巴和蚂蚁金服在分布式架构和智算架构领域的实践,构建云原生、AI原生等全栈解决方案。 2. 负责对金融客户的信息科技规划进行深度分析和洞察,形成有领先型的云化架构转型和智算架构转型方案,对用户信息科技部门和高层领导进行决策影响;其中对标杆客户进行轻咨询类规划引导,形成更加针对性的客户解决方案。 3. 熟悉阿里巴巴相关IaaS、PaaS、大模型、智算等产品能力和竞争优势,掌握各类技术方案的相应技术参数指标,针对不同业务需求优化设计,负责组织相应的POC进行方案支持,保证产品方案的客户价值、可落地性和差异化优势。 4. 面向金融企业客户,在客服、投研、投顾、风控、营销、内部工作提效等场景中,以大模型为基础,通过使用langchain、RAG、SFT、Agent等相关技术架构结合大模型产品设计可落地的大模型应用解决方案,解决客户实际场景问题。 5. 收集客户需求,结合技术研判,向产研部门反馈产品优化需求,提升产品市场竞争力和市场占有率。
蚂蚁 PaaS 平台是基于蚂蚁多年在金融级云原生领域的技术积累,围绕 Kubernetes 等云原生技术打造的应用 PaaS 平台,并通过下沉技术风险、安全可信、数据智能等能力,实现效率与风险的极致平衡,满足蚂蚁多元化业务需要。 1、基于 Kubernetes 的云原生 PaaS 平台研发,解决蚂蚁超大规模场景下云原生系统性能、高可用与稳定性等问题 2、参与云原生大模型推理服务平台建设,包括模型部署、推理服务高可用高吞吐等能力建设 3、参与变更管控与智能变更平台建设,包括策略代码化、风险分析、根因定位与变更Agent等能力建设 4、面向客户端到端需求分析、技术选型、架构设计、代码实现与功能交付 5、参与云原生 PaaS 开源技术品牌 KusionStack 的建设
1. 负责网商银行云原生架构、存储架构、AI架构等基础架构建设及演进 2. 负责网商银行稳定性保障工作,牵头全行的应急处置工作和快反产品能力建设 3. 负责基础架构方向大模型应用场景的探索落地,以及相关AI平台系统的架构设计与开发,利用RAG/Agent等技术提升技术风险水位; 4. 学习跟踪业界大模型在效能领域的最新进展,并探索大模型在技术风险/研发效能方向的机会点和提升改进落地效果;
1.基于开源项目 Ray,打造业内领先的通用分布式计算引擎,包括但不限于以下方向:引擎内核(分布式Task调度与执行)、分布式数据处理框架、分布式在线服务编排框架等; 2.面向 Data + AI,支持和拓展以 Ray 为 infra 的多种业务场景,包括但不限于以下方向:数据科学、大模型训练数据管道服务、在线推理与离线推理、AI Agent与应用系统、隐私计算、图计算等; 3.与 K8S 深度融合,建设云原生环境下超大规模分布式系统的服务能力与平台化能力,为业务提供高可用、可扩展、高易用性的集群化服务; 4.参与开源共建与合作,提升团队与个人在业界的影响力。