阿里云阿里云智能-高性能网络协议栈研发技术专家-杭州
任职要求
● 5年以上Coding经验,熟练掌握c/c++、python等主流编程语言; ● 精通RDMA网络协议的细节, 了解网络协议在大规模部署时的用法及稳定性的考量,具备RDMA或DPDK等研发经验,有自研RDMA协议栈研发经验者优先; ● 有强烈的自我驱动力,对新技术有求知欲望和自学动力,可以理论结合实践的方式快速的上手新的知识; ● 具备一定的项目管理经验,对所负责的领域能够作为owner,充分理解自己团队在生产关系大图中的定位,与业务和协作团队关系,形成良好协作,及时解决职责/认知冲突类问题并驱动合理方案落地; ● 具备在AI训练和推理场景下实践过通信性能调优者优先。
工作职责
1. 技术方案设计方面 a. 负责高性能网络协议栈核心功能的研发,收集和分析业务需求,明确技术方案、目标和交付范围; b. 基于需求完成技术方案设计、UT/IT测试方案设计,带领技术小组完成研发、测试和交付; 2. 技术实现 a. 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; b. 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; c. 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 d. 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3. 稳定性和性能优化 a. 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠; b. 运用优化技术和创新方法,结合AI等业务场景特点进行通信性能优化,提高产品稳定性和性能; 4. 技术预研 a. 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。 5. 技术规划 a. 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1、负责AI智算场景VPC网络接入,低时延高吞吐的高速网络技术研发,以及在计算/存储/AI/机器学习/推荐等公司关键业务上的应用; 2、应用VPC高性能网络技术到虚拟机和容器网络,加速网络虚拟化场景; 3、通过DPU, 可编程硬件等, 推动高性能VPC技术在阿里云智算场景的大规模部等; 4、通过技术创新推动VPC网络技术的持续演进,打造下一代的超低时延高速VPC网络。
你将在以下三个领域: 1. 大型分布式系统软件的高可用性设计开发,自动化故障分析定位能力建设; 2. 高带宽高性能交换路由转发平面的定义、研发、测试和创新; 3. 大规模分布式路由协议的研发、测试和创新。 从事以下工作: 1、技术方案设计 • 收集、识别、分析网络架构和运维侧需求,并确定技术方案的目标、范围和交付成果; • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等。 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现; • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等; • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署; • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等。 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠; • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 • 跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。 5、技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1、负责AI智算场景VPC网络接入,低时延高吞吐的高速网络技术研发,以及在计算/存储/AI/机器学习/推荐等公司关键业务上的应用; 2、应用VPC高性能网络技术到虚拟机和容器网络,加速网络虚拟化场景; 3、通过DPU, 可编程硬件等, 推动高性能VPC技术在阿里云智算场景的大规模部等; 4、通过技术创新推动VPC网络技术的持续演进,打造下一代的超低时延高速VPC网络。