logo of bytedance

字节跳动基础设施系统架构师

社招全职5年以上A04761C地点:西安状态:招聘

任职要求


1、5年以上云计算服务器相关端到端的架构设计经验,在IDC建设、服务器硬件设计/选型/落地等方面有较深的技术积累;
2、深入理解计算机体系结构,精通CPU、内存、SSD、网卡等服务器部件中的一个或者多个的架构设计和原理细节; 
3、熟悉数据中心基础设施、集群网络…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、主导火山引擎IaaS方向的机房规划、服务器规划、集群组网等IDC基础设施的设计与规划,确保技术规划的系统性和领先性;
2、主导IaaS CPU方向的服务器技术选型,参与制定服务器开发和架构演进的路标,确保满足业务需求和技术先进性,对产品架构的领先性、可实施性负责; 
3、研究云计算行业基础设施方面的最新技术,和硬件研发、网络、存储、内核、操作系统等团队紧密配合,实现硬件方案创新,提升性能、降低成本,为基础设施的TCO、性能、高可用、可运维性等方面的竞争力负责。
包括英文材料
系统设计+
内核+
相关职位

logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 工作职责: 1、参与/负责研发面向大语言模型(LLM)/多模态大模型(MLLM)等类型模型的推理服务框架; 2、参与/负责KV Router、PD分离/EPD分离、KVCache管理、动态PD调整等分布式推理能力建设; 3、通过并行计算优化、分布式架构优化、异构调度等多种框架技术,打造高效、易用、领先的AI推理框架; 4、参与/负责构建推理框架的系统容错能力,包括但不限于请求迁移、优雅退出、故障检测、自愈等能力建设; 5、深度参与周边深度学习系统多个子方向的工作,包括但不限于模型管理、推理部署、日志/监控、工作流编排等; 6、与全公司各业务算法部门深度合作,为重点项目进行算法与系统的联合优化,支撑业务目标达成。

更新于 2026-03-28北京|上海
logo of xiaohongshu
社招3年以上机器学习平台

1、负责模型训练平台核心功能开发和架构设计,包括传统CN/NLP/SD/LLM等多场景支持 2、负责大模型后训练工具平台化建设,包括后预训练、微调、对齐等技术落地 3、设计和实现高性能分布式训练系统,打造端到端训练解决方案 4、优化训练调度和资源管理,提升集群利用率和训练效率 5、开发模型训练监控诊断工具,建设可观测性体系

北京|上海|深圳
logo of xiaohongshu
社招后端开发

【职位描述】 1、设计和实现机器学习平台业务系统, 包括工具链/组件等AI基础设施, 落地业务功能需求; 2、高效优化和部署 计算机视觉、语音识别、语音合成、自然语言处理 等业务模型; 3、与公司各算法部门深度合作, 分析业务性能瓶颈和系统架构特征, 软硬件结合优化, 实现极致性能。

北京|上海
logo of ke
社招基础业务平台研发

加入我们,您将参与构建贝壳业务(新房、二手、租赁、家装、商办等)基础设施商机平台。建设基于流量分发引擎的一站式商机分配业务解决方案和完善的B端精细化运营管理系统。您将有机会深度参与: 1、参与承载日均15亿+展位流量的分发引擎智能化升级,探索和应用A技术,夯实平台能力,助力业务目标达成; 2、参与建设一站式指标计算与管理平台,提升商机分配策略构建、数据经营分析效率; 3、参与迭代平台核心服务与系统,如:推荐策略开放平台、测算仿真平台、商机数据服务、效果溯源服务等; 4、参与大流量、高并发、海量数据处理相关大型分布式系统架构升级。

更新于 2025-03-21北京