字节跳动云原生容器网络高级研发工程师
任职要求
1、计算机相关专业,本科以上学历,有两年以上工作经验 2、计算机理论基础扎实,熟练掌握至少一种编程语言(Go、C等) 3、熟悉TCP/IP等常用网络协议,有丰富的网络编程、故障定位、性能调优经验 4、熟悉云计算Underlay、Overlay网络拓扑,有相关网络技术的研发经验 5、熟悉K8S、熟悉…
工作职责
1、参与云原生容器网络控制面和数据面的设计、研发和优化工作 2、参与云原生容器网络新技术的预研、原型设计和开发工作
1.负责 TKE 云原生容器网络架构的设计、开发和优化,打造高性能、高可靠性的容器网络; 2.负责数万 Kubernetes 集群的网络生命周期管理,解决容器网络在超大规模集群下的性能瓶颈问题(如网络延迟、带宽、安全隔离等); 3.设计并实现容器网络的高级功能,如网络策略(NetworkPolicy)、多租户隔离、IPv6支持、混合云网络互通等; 4.研究和探索容器技术的新方向,跟踪容器技术的发展趋势,持续优化产品性能和用户体验。
-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本
阿里云持续推进AI与云计算深度融合的战略布局,聚焦AI基础设施、大模型平台及企业级AI应用等核心场景。为加速专有云网络产品的技术演进,现诚邀优秀人才加入: ● 负责专有云云计算网络产品的设计与研发,围绕虚拟化、负载均衡(四层/七层)、容器网络、服务网格及软硬件协同等云网络与云原生关键技术,开展技术分析、方案选型与功能设计工作。 ● 承担云网络核心模块的编码实现,包括网元、网关等产品的功能开发、单元测试(UT)、端到端测试(E2E)用例编写、代码调试与评审,以及版本发布等全流程研发任务。 ● 参与专有云网络运维体系建设,负责线上问题的定位、分析与解决,为一线技术支持团队提供技术支撑,保障产品稳定高效运行。 ● 具备大模型应用开发能力,结合实际运维场景,推动运维系统的智能化升级,提升运维体系的可靠性、自动化水平与用户体验。