腾讯数据中心规划专家
任职要求
1.本科及以上学历,电气/暖通相关专业背景优先; 2.8年以上数据中心从业经验,具备互联网,第三方或运营商大规模数据中心的规划/设计/运营/资源管理相关经验优先; 3.对国内外数据中心行业发展及数据中心技术架构有深刻认识,具备良好的全局视野和宏观规划能力; 4.对数据中心财务模型有深刻理解,具备良好的数据分析能力; 5.优秀的项目组织、推动、控制和协调能力,擅于协调跨团队资源,推动并对端到端落地负责; 6.良好沟通能力和合作精神,抗压能力强。
工作职责
1.负责数据中心宏观面(空间/电力/弹性)的顶层设计和中长期规划,并端到端推动落地; 2.搭建数据中心资源管理平台,从需求预测/Buffer池化/建设颗粒度的动态调整等方面实现复杂业务场景下的机架弹性供给; 3.促进数据中心资源规划与新能源拓展和服务器(CPU/GPU)特性的融合,推动绿电直供/源网荷储等战略项目落地; 4.基于容量/使用率/PUE/电价/TCO等维度的经济指标分析和优化策略,搭建经营分析平台,持续降本; 5.制定数据中心生命周期的全链路管理标准,包括但不限于立项/选址/运营改造/到期续约改造/新生命周期迭代/裁撤/报废等; 6.建立腾讯数据中心技术传播策略,通过行业标准/开源项目等渠道持续提升行业影响力和合作伙伴粘性。
我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。
负责 Keeta 数据合规与隐私保护技术体系的顶层设计与持续运营,基于业务不同发展阶段,规划并落地可持续、可扩展的合规架构。 主要工作包括且不限于:全球机房部署与跨境隔离设计、隐私产品功能与流程(Privacy by Design)落地、数据安全加固与防护策略落地、隐私数据中心规划与运维、国际合规认证推进、隐私感知能力建设。
1、 做好与能源行业主管机构与业务之间的桥梁,跟进各类政策规章,做好传达和解读;及时向能源主管机构汇报数据中心行业发展中的情况、成果、困难或建议; 2、 牵头政企合作、项目、活动等工作的沟通,内部协同方案资料整理; 3、 了解能源行业发展的趋势,撰写面向主管机构、研究机构、行业机构的函件、报告等公文材料; 4、 营造政、产、学、研良好互动的环境,助力业务的发展。
1、负责字节跳动中国区线上海量服务器全生命周期运营运维管理和技术服务,面向业务提供和交付业界第一的服务器运营运维服务,促进和保障业务稳定发展;工作职责涵盖新产品运维引入、运维管控等运营适配、线上运营管理、稳定性运营管理、数据中心服务器运维管理、维保维修、运营流程规范和平台系统规划建设等方向; 2、负责服务器新产品引入运营管理和适配体系化建设,包含制定服务器运维标准基线,规划设计、迭代优化新品可维护性、易维护性、稳定性方案,负责新品引入运营风险识别和评估评审、新产品运营运维方案建设适配等; 3、负责线上服务器基础运营服务,规划和建设稳定安全高效的基础运营服务架构和服务能力,包含固件升级、带外管理、开关机、重启、重装、搬迁等服务架构和能力;负责线上服务器整体维保和技术支持服务交付,规划和建设稳定高效的维保和技术支持体系架构和运维能力,建设改配和利旧交付能力,打造稳定可靠低成本的维保和技术支持服务,保障业务连续性和持续发展; 4、负责线上服务器稳定性保障服务,规划和建设稳定性流程规范、平台系统、保障机制和能力,负责现网运营稳定性监控、稳定性风险识别、问题响应处理和保障措施,保障业务稳定健康运行;负责数据中心IT运维服务,数据中心现场IT运营运维管理、园区物理管理和属地公共关系处理等工作,规划和建设标准化运维体系和能力,监控和防范数据中心IT运维风险,全方位保障数据中心稳定健康运行; 5、负责边缘机房物理资源软硬交付、线上网络服务器一体化运维服务,规划和建设边缘运营服务标准和能力,开展供应商及数据中心IT风险管理,协同商务以更优的服务和成本优势支持业务发展; 6、负责运营运维流程规划设计、管理和优化,平台系统方案规划和设计,通过系统化和自动化方案提升运营效率和质量。