阿里云阿里云智能-高性能网络资深架构师-北京/杭州
任职要求
• 10年以上网络、云计算架构设计和开发相关工作经验
• 至少负责过1个有较强行业影响力的产品或技术突破,是核心的技术模块负责人
• 曾负责或主导过大型网络产品的设计,或研发,或市场的工作,负责的产品具有一定规模,并且在业界具备一定影响力
• 2年以上团队管理经验;同时推动多个复杂项目
• 能够支撑组织大型项目和战略目标的完成,并与组织内其他专业角色完成战役目标/策略的设定和共识
• 基于业务价值判断,阐述清晰方案取舍的思考,带领大家目标理解一致、路径达成共识
• 熟悉集团内外部以及业界在本领域的技术水平及发展动态,明确知晓集团技术水平与行业方案的差距
• 对竞对和对标产品的核心技术指标、优劣势对比了如指掌,并通过建立对标机制…工作职责
1. 主导RDMA高性能网络架构设计:
设计并优化万卡级RDMA网络协议、拓扑,流控技术,支持AllReduce、All-to-All等通信模式,保障吞吐率>90%。
联动PyTorch、NCCL等框架,通过RDMA配置、内存注册策略降低CPU干预,提升训练效率。
2. 构建全栈可观测性与智能运维:
开发覆盖NIC、交换机、内核层的监控体系,结合ML模型预测拥塞风险,实现故障分钟级定位与恢复。
制定拥塞控制算法参数、NUMA绑定等跨平台部署规范,确保异构芯片/多云环境下的网络一致性。
3. 推动技术标准化与生态兼容:
主导RDMA网络协议栈(Verbs API、拥塞控制算法,多路径传输协议)的定制化开发,优化驱动与固件性能。
评估UCX、eRPC、xLink over ethernet等新技术,制定下一代AI网络演进路线。
4、技术规划
• 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。1、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座在AI场景下如GPU集群调度、LLM模型分发、应用层感知的流量分发等相关需求分析以及技术方案设计。 2、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座的AI场景下的控制平面以及数据平面的开发以及维护,包括相关需求开发、性能优化、架构升级、稳定性保障等。 3、负责云网络虚拟化网元在AI训练/推理场景下的技术预研以及技术规划。
1、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座在AI场景下如GPU集群调度、LLM模型分发、应用层感知的流量分发等相关需求分析以及技术方案设计。 2、负责云网络SLB/GA/PVL/NAT等虚拟化网元以及转发底座的AI场景下的控制平面以及数据平面的开发以及维护,包括相关需求开发、性能优化、架构升级、稳定性保障等。 3、负责云网络虚拟化网元在AI训练/推理场景下的技术预研以及技术规划。
1、负责风险核身平台的架构设计和需求研发,独立完成核身领域的需求交付和方案设计。 2、参与重大技术选型与攻关,评估并引入前沿身份验证技术,保证平台架构的先进性、稳定性、可扩展性和成本效益。 3、参与设计高可用、高并发、可扩展的核身决策架构,涵盖API网关、业务流程核身引擎、决策策略引擎、核身因子等核心系统。 4、参与构建智能化的核身决策大脑,实现风险自适应的核身流程(豁免、降级、Rank评分、成本优化)。 5、负责平台SLA、可用性、稳定性的体系化建设,确保对所有服务业务线的稳定支撑。 6、推动核身运营平台的产品化与配置自助化,提升业务接入和运营效率。 7、base地:北京/上海/杭州。
1、负责风险核身平台的架构设计和需求研发,独立完成核身领域的需求交付和方案设计。 2、参与重大技术选型与攻关,评估并引入前沿身份验证技术,保证平台架构的先进性、稳定性、可扩展性和成本效益。 3、参与设计高可用、高并发、可扩展的核身决策架构,涵盖API网关、业务流程核身引擎、决策策略引擎、核身因子等核心系统。 4、参与构建智能化的核身决策大脑,实现风险自适应的核身流程(豁免、降级、Rank评分、成本优化)。 5、负责平台SLA、可用性、稳定性的体系化建设,确保对所有服务业务线的稳定支撑。 6、推动核身运营平台的产品化与配置自助化,提升业务接入和运营效率。 7、base地:北京/上海/杭州。