
智能互联基础设施与稳定性工程-AI Infra数据开发工程师-基础设施资源管理
任职要求
1、本科及以上学历,计算机科学、统计学、数学、电子工程或相关专业;硕士及以上优先。 2、3 年以上数据开发、数据分析或AI Infra相关工作经验; 3、有 AI Infra或云计算平台相关数据开发或者研发经验者优先;了解 AI 基础设施架构(GPU 资源调度、RDM…
工作职责
1、整合 GPU/CPU 算力、存储(如 CPFS)、网络(如 RDMA/InfiniBand)、供应链流转等多维度数据,构建资源使用率、成本结构与供需分析模型,输出可落地的优化建议; 2、整合资源效能和业务性能指标(如MFU、TPM、TPOT、GPU 利用率等),建立资源效能评估模型,量化资源投入与业务产出之间的关系,为资源规划与采购决策提供数据支撑; 3、负责 AI Infra 资源数仓的数据链路设计与建设,覆盖数据采集、清洗、加工、存储与服务全流程,保障资源数据的准确性、一致性与时效性; 4、构建并维护资源数据可视化平台,开发资源热力图、利用率趋势、成本分摊仪表盘等,支撑日常运营与管理层决策; 5、与资源运营、财务、研发等团队紧密协作,搭建资源生命周期关键指标看板,定期输出资源效能分析报告,支撑资源采购与部署策略落地。
-负责云原生产品 Kubernetes 容器引擎、镜像服务、可观测服务等的设计与研发工作,提升产品竞争力及体验 -负责大规模 AI Infra 云原生底座的设计与研发工作,基于云原生技术打造异构多元芯算力底座,支持国产化信创,支持业务进行大规模训练、容错及弹性推理,构建异构多元芯算力底座 -负责打造现代化的云原生智能运维能力,设计和实现覆盖 AI 场景全栈的故障感知、诊断及自愈能力 -持续提升云原生产品服务及基础设施的稳定性,优化服务性能,提升架构的可扩展性 -探索业界最新技术方向,参与开源社区,提升百度云原生核心竞争力
我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! DirectLLM是小红书内部面向各业务场景建设的大模型API服务产品,通过标准化API接口提供LLM/MLLM等大模型推理服务,致力于为AI应用开发者提供品类丰富、数量众多的模型选择,并通过API接口为其提供开箱即用、能力卓越、成本经济的模型服务,各领域模型的能力均可通过统一的API和SDK来实现被不同业务系统集成。 核心职责 1. 参与小红书万亿级Token量推理系统构建,包括但不限于大模型智能网关、大模型弹性伸缩、推理系统优化等方向,共同打造国内领先的大模型MaaS服务; 2. 探索负载感知的推理系统流量调度算法,如基于Prefix Cache命中率调度、基于P/D分离的流量调度、基于KVCache使用率、推理排队负载感知的流量调度、长上下文请求调度优化等,持续提升MaaS系统的稳定性、成本效益; 3. 探索并跟进业界开源SOTA模型,如Qwen系列、DeepSeek系列,多维度评估模型效果并建立相关的准入体系,及时上架到MaaS系统; 4. 参与MaaS系统的国产卡适配与异构算力统一调度体系,如华为910C、阿里PPU、昆仑芯P800; 5. 参与攻克大规模分布式推理系统带来的复杂挑战,通过弹性调度、容量规划、链路压测等手段提升系统健壮性,确保平台能够弹性扩展,支撑业务的飞速增长。
1. 模型训练基础设施开发 - 设计和实现支持大规模分布式训练的计算平台,优化模型训练效率和资源利用率。 - 维护和扩展现有的分布式训练框架,确保平台的高性能和稳定性(如基于 PyTorch、TensorFlow 或 JAX)。 - 集成和优化高性能计算技术(如 CUDA、MPI、NCCL 等)。 2. 模型推理基础设施开发 - 构建高效的推理框架,支持大模型的在线和离线推理需求。 - 优化推理速度、内存占用和能耗,支持多种硬件架构(GPU、NPU等 )。 - 实现PD分离、Context Caching、模型量化、推敲编码等推理优化技术。 3. 性能监控与优化 - 开发工具链和监控系统,跟踪训练与推理过程的性能瓶颈。 - 分析并优化数据加载、通信效率和硬件利用率等关键环节。 4. 跨团队协作 - 与模型研究团队密切合作,理解模型需求,定制训练和推理策略。 - 支持产品团队的模型部署需求,推动大模型在实际场景中的落地应用。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。