
同程旅行运维开发工程师(IDC方向)
【网络系统开发&运维】 小红书是一家领先的生活记录、分享平台,致力于探索美好生活的更多可能性。我们的网络团队正在寻找工程师,与我们一起构建更优质的网络体验。如果你对生活充满热情,对技术有独到见解,欢迎加入我们! 我们提供: 1、一流的工作环境和工作设施; 2、多元化的职业发展机会和学习资源; 3、富有团队活动和员工关怀。 网络数据面研发方向 1、参与网络转发面架构设计,包括网络虚拟化、软硬件结合等技术; 2、参与网络系统的设计、规划和研发,包括但不限于NAT、负载均衡等; 3、研究并引入新的技术和方法,提升网络系统的性能和可扩展性; 4、与团队紧密合作,解决研发过程中的技术挑战。 【任职资格】 1、本科及以上学历,计算机科学或相关专业; 2、有2年的负载均衡、NAT或相关领域的研发经验,具备内核协议栈优化或FullNAT或DR经验,熟悉相关技术和原理; 3、熟悉Linux操作系统,精通编程,并熟练掌握c/c++/golang等编程语言中的至少一种; 4、熟悉TCP/IP协议,深入理解网络原理; 5、具备团队合作精神,良好的沟通和表达能力; 6、具备强烈的工作责任心和自我驱动力,能在压力下保持冷静并积极应对。 【加分项】 1. 有DPDK或eBPF开发经验者优先; 2. 在开源社区有活跃贡献记录的优先。 网络系统运维方向 1、负责小红书IDC相关网络系统的架构规划、设计、实施和维护,包含但不限于LVS、NAT、DNS等软件,不断提高网络系统的稳定性和性能; 2、保障LVS、NAT、DNS等网络系统的正常运行,快速定位并解决系统故障; 3、编写并维护网络系统的文档,包括操作手册、故障处理手册等; 4、研究网络技术,跟踪并引入新技术、新工具、新方法。 【任职资格】 1、本科及以上学历,三年以上Linux系统运维经验,熟悉云计算网络相关技术(VxLAN/OVS/DPDK/NAT/LVS等); 2、深入理解网络路由、交换基本技术原理,熟悉TCP/IP、OSPF、BGP等网络协议,有丰富的网络排障能力; 3、熟练使用Go/Python/Shell等编程语言,善于使用自动化方法让服务稳定高效; 4、具备良好的团队合作精神,能够有效地与团队成员沟通; 5、具备较强的工作责任心和自我驱动力,能够在压力下保持冷静并积极应对。 【加分项】 1、有使用过OpenStack、Kubernetes等云平台经验的优先; 2、有使用过Keepalived、HaProxy等负载均衡器经验的优先; 3、在开源社区有活跃贡献记录的优先。 网络控制面研发方向 1、参与网络SDN 控制系统的设计、研发和优化工作; 2、参与网络产品的控制面研发,包括但不局限于NAT、负载均衡、IPAM等产品; 3、参与大型分布式系统的性能和架构优化。 【任职资格】 1、计算机或相关专业本科及以上学历,扎实的计算机科学基础知识; 2、1年及以上工作经验,熟练掌握至少一种编程语言(c/c++/golang等); 3、熟悉TCP/IP协议,了解网络原理; 4、熟悉分布式系统的设计和应用,有高并发服务研发经验优先; 5、有NAT、负载均衡等网络系统研发经验优先。
-负责百度数据中心电气系统技术方向、系统架构的规划设计与落地实施 -负责数据中心方案设计、设备选型、建设交付、运维支撑等全生命周期技术管理 -负责数据中心主要设备供应商产能调研,持续跟踪IDC主要设备市场供需,统筹跟踪管理建设项目设备供货 -负责数据中心新技术的探索创新、研究应用、持续优化,降低建设成本,保障交付质量与系统可靠性,提升能源效率,降低资源消耗,促进节能减排与绿色发展
我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:字节跳动系统部,负责字节跳动从芯片到服务器、操作系统、网络、CDN 、数据中心等基础设施的研发、设计、采购、交付与运营管理,为包含抖音、头条、火山引擎等全球业务提供高效、稳定、具备可扩展性的基础设施。部门当前业务开展包括不限于:数据中心设计建设、芯片研发、服务器研发、网络工程研发、火山引擎边缘云业务、高性能智能硬件研发、IDC资源智能交付与运维、硬件基础设施智能监控与预警、操作系统与内核、虚拟化技术、编译工具链、供应链管理等众多基础设施相关方向。 1、负责字节跳动计算型、存储型、GPU等定制化服务器产品和自研芯片板级开发验证系统的硬件方案设计,包括各板卡Layout层叠结构、Power拓扑、时钟拓扑、系统管理拓扑设计、主要元器件和连接器选型等; 2、与服务器ODM、芯片设计厂商一起进行服务器主板及板卡的原理图设计、原理图和Layout的审核,在产品研发周期内与ODM厂商一起保障硬件设计质量; 3、负责服务器、板卡、芯片验证系统等产品的电路板原理图、控制逻辑等组件的设计;负责和PI、SI、结构、散热工程师联合设计PCB总体设计,主导PCB审核过程,对原理图、控制逻辑、PCB的设计质量负责; 4、负责硬件电路系统调试、验证工作,输出电路设计的调测计划、调测报告、单元测试(UT)报告输出;与合作伙伴紧密协作完成硬件协同的专业测试、可靠性测试等,并负责相关问题解决; 5、与ODM厂商一起进行相关bug的处理,保障项目高质量完成各阶段转段。跟进服务器整机各板卡PCB&PCBA加工生产,推动生产加工相关问题的解决,与ODM厂商一起完成板卡工厂端功能测试的导入工作,最终推进产品部署和上线。