logo of aliyun

阿里云阿里云智能-高性能网络资深架构师-北京/杭州

社招全职10年以上云智能集团地点:北京 | 杭州状态:招聘

任职要求


• 10年以上网络、云计算架构设计和开发相关工作经验
• 至少负责过1个有较强行业影响力的产品或技术突破,是核心的技术模块负责人
• 曾负责或主导过大型网络产品的设计,或研发,或市场的工作,负责的产品具有一定规模,并且在业界具备一定影响力
• 2年以上团队管理经验;同时推动多个复杂项目
• 能够支撑组织大型项目和战略目标的完成,并与组织内其他专业角色完成战役目标/策略的设定和共识
• 基于业务价值判断,阐述清晰方案取舍的思考,带领大家目标理解一致、路径达成共识
• 熟悉集团内外部以及业界在本领域的技术水平及发展动态,明确知晓集团技术水平与行业方案的差距
• 对竞对和对标产品的核心技术指标、优劣势对比了如指掌,并通过建立对标机制…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1. 主导RDMA高性能网络架构设计:
    设计并优化万卡级RDMA网络协议、拓扑,流控技术,支持AllReduce、All-to-All等通信模式,保障吞吐率>90%。
    联动PyTorch、NCCL等框架,通过RDMA配置、内存注册策略降低CPU干预,提升训练效率。
2. 构建全栈可观测性与智能运维:
    开发覆盖NIC、交换机、内核层的监控体系,结合ML模型预测拥塞风险,实现故障分钟级定位与恢复。
    制定拥塞控制算法参数、NUMA绑定等跨平台部署规范,确保异构芯片/多云环境下的网络一致性。
3. 推动技术标准化与生态兼容:
    主导RDMA网络协议栈(Verbs API、拥塞控制算法,多路径传输协议)的定制化开发,优化驱动与固件性能。
     评估UCX、eRPC、xLink over ethernet等新技术,制定下一代AI网络演进路线。
4、技术规划
• 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
系统设计+
NCCL+
还有更多 •••
相关职位

logo of bytedance
社招5年以上A219225

1、负责字节跳动统一流量服务平台建设,统一流量服务平台服务字节跳动旗下抖音、今日头条、飞书、等多个亿级DAU产品线; 2、负责接入产品Netlink的建设,构建全球接入网络中台,优化字节跳动全球用户网络体验与性能,赋能业务; 3、负责流量优化产品NPM(提供一站式端到端高性能网络解决方案,涵盖数据洞察、监控报警、协议分析、网络模拟、配置中心、专家支持等核心网络产品) 的建设; 4、负责观测诊断产品建设,负责数据可视化相关产品的研发和维护工作,交付高质量的可视化产品和服务; 5、保障复杂场景下大数据渲染的性能,不断提升研发效率和产品用户体验; 6、指导团队进行技术选型和技术方案设计,推动技术落地;完成年度规划的制定和执行。

更新于 2025-02-13北京
logo of baidu
社招ACG

-负责建设业界领先的AI异构算力容器平台,提供高性能、高稳定性、高易用性的混合云产品,支持AIGC、智算中心、智驾、金融能源等客户AI应用高效部署 -负责云原生AI容器相关产品的架构设计和产品研发,引入开源社区先进的AI框架、AI调度、AI工作流和AI可观测能力组件构建全栈AI应用云原生解决方案 -结合 SOTA 模型训练推理优化原理,深入模型结构与设计思路,将训练推理优化手段工程实践化,为客户提供系统性加速方案,提升训推效率 -针对大规模异构集群场景下,探索训推任务管理、异构资源调度、虚拟化混布、容器存储、高性能网络、分布式训练和推理等技术的创新和应用 -探索业界最新技术方向,参与机器学习框架等开源社区,提升百度混合云AI核心竞争力,提升团队技术影响力

更新于 2025-04-09北京
logo of jd
社招软件开发岗

1. 负责公有云HPC高性能通信库研发工作; 2. 负责AI计算集群训推框架通信优化工作; 2. 负责AI计算集群通信性能与可用性诊断工作; 3. 熟悉并优化交换机、网卡等数据转发路径,设计并实施高性能网络组网方案,确保网络架构的先进性与可靠性。

更新于 2025-07-28北京
logo of bytedance
社招A172997

1、负责边缘大模型网关,边缘推理等产品化工作; 2、负责安全、高可靠性、高性能的端边云算力协同平台建设; 3、掌握业界前沿的技术,持续探索在各种边缘场景下的AI解决方案。

更新于 2025-03-03北京