
同程旅行容器云平台网络研发工程师
任职要求
任职资格 1.熟悉overlay等网络模型及常见的动态路由算法,如BGP、OSPF等 2.熟悉k8s常见的cni插件及其核心源代码,尤其是Calico及ebpf 3.熟练掌握Go、C/C++、Python等一种以上语言,熟悉常用的数据结构与算法 4.熟悉Linux系统、TCP/IP网…
工作职责
岗位职责 1.负责云平台容器网络组件相关技术预研、架构设计与开发工作, 2.负责技术攻关,持续提升容器网络体系的可扩展性、性能、质量等指标

1、负责容器云平台后端系统的架构设计、功能开发; 2、负责云原生产品及K8S周边生态技术架构演进,实现多集群管理、Serverless化、service mesh、container runtime等; 3、负责容器云平台的安全和稳定运营,关注安全风险、平台高可用、性能等非功能性需求。 4、负责解决容器云平台线上问题。
1、负责容器云平台资源运营领域的设计与开发,优化资源管理效率; 2、基于Kubernetes增强容器云平台的资源管理能力,提升资源利用率; 3、通过技术手段优化资源流转效率,确保资源健康、高效流转; 4、通过数据驱动精细化运营,识别优化目标,落地技术优化方案,提升服务效能。
-参与 AI Infra 核心平台建设,支撑大模型训练与推理业务的稳定、高效运行,覆盖 GPU、RDMA、高速网络等算力资源在云原生体系中的统一管理与调度 -负责 GPU、RDMA 等 IaaS 资源的自动化准入、能力识别、基准测试与性能评测,建设标准化算力验收与持续评测体系,保障不同硬件规格在大规模集群下的可用性与一致性 -负责 Kubernetes 容器平台的架构设计、能力演进与稳定性治理,重点关注平台的高可用、稳定性、安全性、性能、可扩展性等非功能性指标,参与或主导调度、资源隔离、设备插件(GPU/RDMA)、网络或存储相关模块的设计与二次开发 -支撑大模型推理与训练业务在平台侧的工程化落地,关注推理与训练场景下的资源利用率、调度效率、显存管理与多租户隔离,与算法、引擎团队协作,推动性能优化能力在平台层的规模化复用 -参与多卡、多机、大规模 GPU 集群的资源调度与稳定性建设,支撑 TP/DP/PP/PD 等并行模式在平台侧的运行与管理,解决实际生产环境中的性能抖动、资源碎片化与容量规划问题 -参与运维与运营平台后端研发,支撑算力运营、性能监控、容量管理与成本治理,建设可观测体系(监控、日志、Tracing),推动问题发现与定位的自动化,通过工程化手段持续降低人工运维成本