字节跳动DCN网络建设交付工程师-Data
任职要求
1、具有数据中心网络建设交付和交付系统经验,熟悉常见交换机、光模块、光纤线材的使用场景和运行特性; 2、熟悉数据中心网络、高性能计算网络组网方案、BGP路由协议、路由策略、交换机…
工作职责
1、负责字节跳动超大数据中心物理网络和高性能计算网络方案设计、设备选型和网络功能演进优化; 2、负责字节跳动超大数据中心物理网络和高性能计算网络建设交付和带宽扩容,建设平台优化,通过平台和自动化开发不断提升建设效率; 3、负责字节跳动超大数据中心物理网络和高性能计算网络引入测试、方案组网测试和验证工作。
-负责集团/公有云DCN网络、DCI网络以及外网规划、设计和优化部署 -负责RDMA高性能网络的架构设计 -负责对接集团/公有云的业务需求,完成相关网络的需求拆解/设计,并推动需求落地 -跟踪和研究最新的网络技术和趋势,为公司网络架构的升级和演进提供建议和技术支持
1、技术方案设计 • 收集、识别、分析DCN, AI infra 需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 2、技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 3、稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 4、技术预研 • 跟踪和了解新的DCN, AI infra 的发展趋势,参与UEC, SONiC等开源社区的工作, 并根据业务需要提供新的技术支持和建议, 让阿里的发展方向和业界的发展方向吻合。 5、技术规划 • 理解AI infra的战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
负责机器学习引擎的设计与开发,包括: 1、负责内部机器学习平台训练框架的研究与开发(包括数据预处理/训练/推理),服务于广告、推荐、搜索等场景; 2、负责实时高性能预估系统设计与开发,如算子融合、编译优化、模型量化、混合精度、异构硬件加速等; 3、负责性能优化与架构升级,持续提升数据预处理/训练/预估性能; 4、与算法工程师深度合作,为重点项目进行算法与系统的联合优化。