阿里云阿里云智能-云网络虚拟化网元研发专家-北京/南京
任职要求
1. 至少5年以上工作经验; 2. 计算机理论基础扎实,熟练掌握至少一种编程语言(C、C++、Java、Python、Go等) ; 3. 管控方向要求理解数据库的设计以及基于数据库的服务开发,熟悉分布式服务以及高并发服务的开发;精通java框架,包括Spring,Mybatis者优先;做过云计算控制平面或者SDN/Openstack/ODL/ONOS等的开发优先; 4. 转发方向要求了解网络设备工作(物理/虚拟网络设备等)原理 ,熟悉tcp/ip等常见通信协议;熟悉如DPDK/DPVS/Nginx/Enovy等网络技术,熟悉新型可编程网络技术,如eBPF技术者优先; 5. 熟悉云原生K8S以及AI相关推理框架vLLM/SGLang/Dynamo等相关技术优先; 6. 喜欢挑战性的工作,饱满的工作激情,能承受工作压力,有较强的自我驱动能力;
工作职责
1. 负责云网络SLB等虚拟化网元在AI场景下如GPU集群调度、LLM模型分发、应用层感知的流量分发等相关需求分析以及技术方案设计; 2. 负责云网络SLB等虚拟化网元的AI场景下的控制平面以及数据平面的开发以及维护,包括相关需求开发、性能优化、架构升级、稳定性保障等; 3. 负责云网络虚拟化网元在AI训练/推理场景下的技术预研以及技术规划;
1. 负责云网络的虚拟化网元底座NFV平台的数据面技术方案,包括基于需求进行技术可行性分析,技术方案选型、功能设计以及技术架构设计等工作 ; 2. 负责云网络的虚拟化网元底座NFV平台的数据面开发,包括需求代码开发、代码Review、测试及上线发布; 3. 负责云网络的虚拟化网元底座NFV平台的稳定性能力建设以及性能优化,包括线上问题处理、问题诊断等,确保系统的安全可靠,提升产品稳定性和性能; 4. 参与云网络虚拟化网元产品的技术预研以及技术规划,跟踪和了解最新的产品技术趋势。
● 网络稳定性管理:梳理和管控阿里云网络的线上稳定性风险,稳定性建设以及性能优化,包括线上问题处理,问题诊断,确保线上系统的安全可靠,提升产品的稳定性和性能,降低网络风险,提升应急响应处置效率。 ● 自动化运维开发:开发和维护路由器/交换机/虚拟网络等网络设备及软件的自动化能力,;落地网络稳定性相关的运维效能提升。 ● 新技术验证与优化:参与新架构、新产品结合测试和运营要求的工作,归纳总结形成有效的SOP,并集成到监管控相关维护系统中。 ● 变更风控与效能提升:变更风控能力建设,持续提升大规模安全高效变更工程化效能,保障变更稳定性和效率,设计和适配开发自动化变更场景。
团队介绍:字节跳动云基础设施部门,通过云技术管理着百万量级的服务器构成的超大数据中心。我们通过深度优化千万级容器实例与算力优化,搭建EB级数据存储治理体系,探索新一代搜索型数据库与大规模AI集群下的高速网络通信,我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先、稳定、高可用的面向LLM的AI云原生的基础设施架构与产品矩阵,为整个公司的业务和客户发展保驾护航。 1、负责字节跳动全系产品(包括但不限于抖音、今日头条等)的网络基础设施和网络基础平台的研发工作; 2、研发全链路网络性能测量、分析、定位和优化,基于意图的网络自动化,网络仿真、推演和验证,海量网络数据实时和非实时的处理,以支撑超大规模的数据中心网络; 3、云网络产品研发,基于SDN、NFV和软硬件一体化等技术,提供高性能、大规模的火山引擎云网络产品; 4、虚拟网络的出口网关和跨域网关的研发,以及基于DPDK和可编程交换芯片的软件研发,提供高性能的网络虚拟化网关产品; 5、RDMA相关高速网络的传输协议、流控算法、通信库、端网融合等研究和研发工作,支撑AI计算的高性能网络通信; 6、网络相关网元的设计研发,包括自研交换机、路由器等,以适应大规模数据中心的组网和互联;研发四七层负载均衡、通用网络库、加解密技术、DNS调度、QUIC等公网传输协议,提供端到端的流量接入服务。
● 公共云计算作为基础设施为企业提供高效、安全、可靠的云服务,极大地提高了企业的运营效率和创新能力。阿里云作为全球化的公共云计算平台,在云网络领域也走在行业的前列。 ● 阿里云网络的洛神技术平台,基于软硬件一体化技术,云原生弹性NFV技术,大规模SDN网络管控技术,大数据智能网络分析平台,支撑了阿里云丰富的网络产品。 ● 本岗位负责阿里云网络架构设计和云网络技术创新。 1. 架构设计方面负责云网络架构技术领域的设计和规划,以及对现有架构进行梳理、评估和优化,推动架构演进,提升云网络技术竞争力。 2. 技术创新方面通过业务和技术洞察,分析云网络技术发展趋势,提炼对云网络的技术要求,对关键技术进行突破。