logo of aliyun

阿里云阿里云智能-数据中心网络高级架构师-北京/杭州

社招全职8年以上技术类-开发地点:北京 | 杭州状态:招聘

任职要求


● 8年以上网络领域的架构设计、测试、方案经验,有大型互联网公司数据中心网络相关的工作经验;
● 熟悉TCP/IP网络,熟悉交换机、路由器等网络设备的软硬件体系,熟悉芯片转发和网络互连协议,熟悉BGP等网络转发协议;
● 熟悉云计算场景中,计算、存储、虚拟网络,有深入理解某一领域产品的网络实现者优先;
● 熟悉AI计算场景的网络模型,熟悉新的AI智算模型训练和推理技术…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、技术洞察和问题定义
•洞察网络技术发展方向,熟悉和定义技术标准以及前沿进展,跟踪关键竞对的技术和方法。
•结合产品现状定义网络问题,理解业务目标并分解到网络技术待解决问题中。

2、架构规划
•对业务的网络诉求进行架构抽象,建立业务长期发展的网络架构模型和规划。
•制定负责领域的网络架构规划和技术路线图,确定系统目标和方向,考虑关键技术选型、部署架构等多方面因素,确保网络架构的稳定高质量演进。

3、架构设计
•设计网络架构方案,包括规模能力、架构互联、路由、高可靠等。
•拆解关键设计目标为架构系统设计方案,全面评估技术选型、成本、稳定性、部署复杂度等多方面进行架构详细设计。

4、架构落地
• 详细设计架构落地的依赖,并设计和推动各组件和团队进行设计开发,以支撑架构落地。
• 设计测试方案,针对架构设计的关键feature和组件进行全面测试评估,确保技术可行性、性能、稳定性等满足设计预期。
• 输出架构详细设计LLD文档和架构测试文档,向运营团队输出架构运维指导。

5、技术沉淀和赋能
•团队技术架构分享、技术文档和架构规范沉淀、竞对技术调研和分析、学习引入新的网络技术,学习并分享负责业务方向的业务架构,尤其成为业务对网络部分的专家,形成文档沉淀。
包括英文材料
系统设计+
TCP/IP+
相关职位

logo of xiaohongshu
社招1年以上运维开发

网络工程师-数据中心方向 1、负责数据中心网络架构设计、网络规划、建设交付,并结合公司业务发展持续优化网络性能; 2、负责数据中心交换机、路由器、负载均衡等网络设备的运维管理、事件响应和应急处理工作,对网络带宽使用进行分析调优; 3、负责网络设备(路由器/交换机)的选型、测试、RMA等工作; 4、负责网络前沿技术研究,根据业务发展的需求,完成技术方案设计与项目落地。

上海|北京|杭州
logo of aliyun
社招2年以上诚云科技

1、云产品稳定性保障,风险巡检:客户云产品稳定性、体验相关事项治理,产品风险巡检,故障的应急跟进与处理; 2、客户技术专项处置与支持:复杂、疑难问题/技术方案/活动护航保障/产研共建专项主导与管理工作; 3、排查问题,管控体验:高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情; 4、专精客户行业,技术沉淀:提炼客户行业技术服务方案,沉淀内部技术文档,持续提高公共云/混合云各行业最佳实践能力;

更新于 2026-04-07成都|北京|深圳
logo of aligenie
社招2年以上

1、云产品稳定性保障,风险巡检:客户云产品稳定性、体验相关事项治理,产品风险巡检,故障的应急跟进与处理; 2、客户技术专项处置与支持:复杂、疑难问题/技术方案/活动护航保障/产研共建专项主导与管理工作; 3、排查问题,管控体验:高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情; 4、专精客户行业,技术沉淀:提炼客户行业技术服务方案,沉淀内部技术文档,持续提高公共云/混合云各行业最佳实践能力;

更新于 2026-04-07成都|北京|深圳
logo of xiaohongshu
社招5-10年引擎

我们是小红书中台大模型 Infra 团队,专注打造领先易用的「AI 大模型全链路基础设施」!团队深耕大模型「数-训-压-推-评」技术闭环,在大模型训练加速、模型压缩、推理优化、部署提效等方向积累了深厚的技术优势,基于 RedAccel 训练引擎、RedSlim 压缩工具、RedServing 推理部署引擎、DirectLLM 大模型 API 服务、QuickSilver 大模型生产部署平台等核心产品,持续赋能社区、商业、交易、安全、数平、研效等多个核心业务,实现 AI 技术高效落地! 1、参与设计实现支持RLHF/DPO等对齐技术的高效训练框架,优化强化学习阶段的Rollout、Reward Model集成、多阶段训练 Pipline; 2、研发支持多机多卡 RL 的分布式训练框架,开发TP/PP/ZeRO-3与RL流程的动态协同机制,解决 RL 算法在超长时序下的显存/通信瓶刭 3、构建端到端后训练工具链,主导框架与 MLOps 平台集成,提供训练可视化、自动超参搜索等生产级能力 4、与公司各算法部门深度合作,参与大语言模型LLM、多模态大模型 MLLM等业务在 SFT/RL领域的算法探索和引擎迭代; 5、参与分析各业务 GPU 利用率与饱和度等指标,结合业务场景持续优化训练框架能力,提升框架领先性。

更新于 2026-03-28上海|北京