logo of ly

同程旅行运维开发工程师(网络运维方向)

社招全职5年以上地点:苏州 | 北京状态:招聘

任职要求


1、全日制本科以上学历,5年以上开发工作经验,3年以上网络运维开发相关经验,优秀工作经历者学历要求可放宽;
2、熟练掌握IP-CLOS,SRv6,EVPN,BGP,OSPF,MLAG原理和应用,并应用于网络架构设计,工程交付和持续优化工作;
3、熟练掌握网络SLA99.99%度量和交付标准,并可识别当前网络风险Top10,并制定落地改造方案;
4、熟练掌握监控系统(如夜莺,Prometheus)部署和应用于网络运维,将网络核心运营数据指标化和可视化;…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、负责网络架构的日常运维、架构设计、应急响应和问题处理。网络系统内部和外部突发事件处理,线路和设备疑难问题及风险根因分析和解决,保障每天网络稳定运行SLA99.99%;
2、负责网络系统解决方案设计和交付,带领或者推动其他专业一起完成重点项目交付;
3、主导网络自动化运维体系建设,负责网络自动化运维平台的方案的设计、研发、优化、重构和运维工作;
4、负责网络基础信息、故障率、可用性、容量性能、业务按量计费、成本等数据的运营和分析,提升网络稳定性和运维效率;
5、负责网络运维自动化知识库建设和人才培养,为团队提供标准、流程规范和指导文档。
包括英文材料
学历+
系统设计+
Prometheus+
分布式系统+
缓存+
Python+
还有更多 •••
相关职位

logo of didi
社招技术

1. 负责万亿级别QPS的分布式缓存/存储集群,支撑公司所有产品线的业务需求; 2. 设计、研发高可用、高性能的缓存/存储架构和中间件,应对弹性扩缩容,秒级故障自动切换,异地多活,分布式事务等极具挑战性的工作内容和方向; 3. 优化系统性能,深入内核,提升基础服务相关资源的使用率,增加系统稳定性,保障业务运行; 4. 设计并研发自动化运维平台,提升运维质量和效率,探索运维自动化和智能化技术和方向。

更新于 2025-04-01北京
logo of meituan
社招软硬件服务-Sa

1. 负责支撑日均千万级订单的交易平台研发工作,覆盖购买、履约、售后、预定等交易全链路业务,支持多业务场景下的能力编排与扩展; 2. 参与餐饮SaaS特有的离线系统设计、解决云店数据协同与一致性问题,推进模型、能力标准化运营; 3. 负责餐饮行业复杂业态和复杂业务场景的系统方案设计、模型抽象设计和业务数据质量保障; 4. 持续优化交易核心系统性能、稳定性,解决海量数据场景下的分库分表、热点数据处理、归档改造等技术难题; 5. 难点攻克,技术输出,指导初级工程师,促进团队共同成长;

更新于 2025-04-17北京
logo of bytedance
社招A121315

团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发,服务于大模型推理的各业务场景(LLM/S2S/VLM/多模态等),包括模型分发加载、KV Cache存储和优化,数据IO性能优化,提高推理TTFT、TBT等核心性能指标; 2、负责设计和实现面向大模型推理的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS/对象存储)等多种介质进行数据的存储和迁移管理,实现「近计算缓存+远端大容量存储」的一体化分级系统; 3、负责优化大模型KV Cache命中率,从推理框架,流量调度,多级缓存等多个系统纬度入手定制化优化策略;优化数据的读取性能,充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输;优化数据副本的存放策略,实现负载流量和存储数据的合理化分布; 4、负责设计和实现高效、易用的数据访问接口,实现和推理框架、引擎的无缝对接,管理KV Cache的生命周期; 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控,确保稳定性; 6、负责多机房、多地域、多云场景的系统搭建和容灾,优化跨集群的数据摆放。

更新于 2024-12-20上海
logo of aliyun
社招4年以上诚云科技

1、客户现场专项技术负责人,如网络专项、数据库专项; 2、平台稳定性重大变更方案制定与实施,如性能/存储优化、底座改造等; 3、现场故障应急执行,协助原厂尽快恢复平台运行; 4、关键时刻现场保障,如客户平台隐患深度排查与治理; 5、复杂问题原因定位及解决;

更新于 2025-11-24北京|沈阳