logo of leyuansu

乐元素网络专家

社招全职7年以上地点:上海状态:招聘

任职要求


1、本科及以上学历,计算机、通信等相关专业,7年以上大型互联网或云计算公司基建网络架构规划经验;
2、有 0-1 主导异地多工区/大型职场网络建设、维保的完整项目经验;
处理过峰值流量超过 100 Gbps 的大型生产/研发网络的经验,熟悉相关设备、架构、技术挑战和解决方案;
3、丰富的混合云网络架构实践经验,精通至少一家主流云厂商的网络产品和服务,有成功解决云-网-工区复杂互联问题的案例;
4、精通 BGP、EVPN、VxLAN/MPLS 等大型网络协议和隧道技术…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、主导规划面向游戏全球研发与办公业务的下一代高速多工区网络架构、演进路线与落地实施,确保满足高可用、低延迟及容灾要求;
2、负责跨工区骨干网、专线与办公区局域网的规划、容量管理、性能调优与成本控制,应对游戏大包分发与研发压测等峰值流量挑战;
3、深度整合公有云与多个自建和租赁的异地工区/职场,构建和优化统一、安全、高效的混合云办公与研发网络平台;
4、制定并推行网络设计、运维、安全及 SLA 标准,主导重大技术决策、复杂变更与工区基建故障的事后深度复盘,驱动系统性改进;
5、协同基础设施、安全、研发及游戏项目组,深刻理解业务需求,精准维保,将网络能力转化为可衡量的业务价值与核心竞争力。
包括英文材料
学历+
Ansible+
还有更多 •••
相关职位

logo of antgroup
社招5年以上技术类-运维

1. 负责数据中心AI高性能网络、虚拟网络技术的规划、架构设计、以及交付建设、日常稳定性保障、性能优化提升等工作 2. 负责数据中心网络设备及四层设备系统的架构设计及运行保障。 3. 参于搭建网络建设、运维自动化体系,推进网络运维标准化、平台化、自动化能力提升。 4. 参于网络稳定性风险梳理、持续完善变更机制规范、网络故障应急等,持续降低网络运行风险。

更新于 2025-06-13杭州
logo of antgroup
社招3年以上技术类-开发

我们是蚂蚁网络基础设施团队,为蚂蚁提供稳定高效的网络连接服务。我们致力于研发和建设一流的网络基础设施,通过技术驱动来不断优化通算和智算业务连接成本、性能和稳定性。 ● 负责蚂蚁AIDC网络架构设计、演进以及交换机或网卡协议栈等研发优化落地 ● 通过算法-框架-工程协同实现成本和性能全局最优

更新于 2025-04-03杭州
logo of antgroup
社招3年以上技术类-开发

我们是蚂蚁集团网络技术团队,为蚂蚁集团全站提供通智一体、稳定高效的网络基础设施产品、平台和服务。 ● 负责推理网关核心能力设计和开发; ● 通过创新的流量调度算法减少推理成本;

更新于 2025-04-03北京|杭州|成都
logo of thead
社招5年以上技术-芯片

我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。

更新于 2025-12-31上海