logo of aliyun

阿里云阿里云智能-网络系统软件技术专家-杭州

社招全职5年以上云智能集团地点:杭州状态:招聘

任职要求


1. 计算机科学、软件工程等相关专业优先;5年以上Linux Coding经验;
2. 精通网络硬件(网卡或交换机芯片)原理,具备丰富高带宽交换芯片开发经验,如Broadcom、Barefoot等;
3. 熟悉大规模数据中心和骨干网架构和相关的网络协议,比如BGP、L3VPN等;
4. 熟悉Linux操作系统原理,内核协议栈,网络编程等;
5. 精通分布式系统的设计和开发,对大型分布式网络系统稳定性、高可用有深刻理解;
6. 工作细致,积极主动,良好的沟通,组织协调能力和团队合作意识,高度的责任感;
7. 良好的编程能力与持续改进意识。
候选人需要有至少前五项中至少两项的技能或经验。

工作职责


你将在以下三个领域:
1. 大型分布式系统软件的高可用性设计开发,自动化故障分析定位能力建设;
2. 高带宽高性能交换路由转发平面的定义、研发、测试和创新;
3. 大规模分布式路由协议的研发、测试和创新。
从事以下工作:
1、技术方案设计
• 收集、识别、分析网络架构和运维侧需求,并确定技术方案的目标、范围和交付成果;
• 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。
2、技术实现
• 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现;
• 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等;
• 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署;
• 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。
3、稳定性和性能优化
• 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠;
• 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。
4、技术预研
• 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。
5、技术规划
• 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
Linux+
内核+
网络编程+
分布式系统+
高可用+
相关职位

logo of aliyun
社招8年以上云智能集团

1、技术方案设计 • 收集、识别、分析DCN, AI infra 需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的DCN, AI infra 的发展趋势,参与UEC, SONiC等开源社区的工作, 并根据业务需要提供新的技术支持和建议, 让阿里的发展方向和业界的发展方向吻合。 5、技术规划 • 理解AI infra的战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。

更新于 2025-09-10
logo of aliyun
社招5年以上技术类-开发

1. 依据公共云统一架构、OpenAPI规范、软件技术栈以及交付运维体系,负责专属云产品的研发与交付。深度参与灵骏裸金属服务器及EGS云计算服务器的研发流程,包括硬件架构预研、方案设计、软硬件结合的系统优化、线上服务质量保证以及提供专家技术支持等关键环节,确保产品从研发到运维的全生命周期高效管理。 2. 跟踪并把握GPU架构设计的发展趋势,探索前沿的GPU架构设计技术。联合高性能网络团队共同设计网络互联架构,针对分布式训练和推理业务场景,在软硬件协同及高性能网络方向上寻找性能优化的新途径,构建阿里云加速计算云服务器的核心竞争力。 3. 研发并持续改进系统的稳定性和安全性,确保平台的安全可靠运行,并不断提升对外服务质量标准。

更新于 2025-06-18
logo of aliyun
社招技术类-开发

1、负责应对各种复杂业务场景的分布式文件系统的设计与研发,包含高可用高可靠高性能设计,文件系统核心 IO 栈的研发,参与数据路径和元数据路径的设计和研发。 2、负责分布式文件系统的稳定性工程,包括但不限于系统的可观测性、FaultTolerance、多租户 QoS系统研发。针对专属云网络隔离、专线带宽受限等特定风险,负责针对性的稳定性设计、SOP 和 演练。

更新于 2025-06-18
logo of antgroup
社招3年以上技术类-开发

我们是蚂蚁集团网络技术团队,为蚂蚁集团全站提供通智一体、稳定高效的网络基础设施产品、平台和服务。 ● 负责推理网关核心能力设计和开发; ● 通过创新的流量调度算法减少推理成本;

更新于 2025-04-03