高德地图高德-高级运维研发工程师/专家-运维团队-急招
任职要求
- 大学本科以上学历,计算机相关专业,3年以上工作经验; - 具有Linux下Python、Golang、Java至少其中之一的研发经验 ; - 对业务运维场景和痛点有深入…
工作职责
高德运维研发团队主要负责高德运维平台的建设,对服务稳定性和用户体验负责,主要围绕如下几个方向进行卓有成效的工作: - 高可用方向:围绕混沌工程、故障自愈、全链路故障定位 等前沿技术方向进行平台化建设和智能运维大规模业务落地,提升系统的稳定性水平。 - 资源管理方向:将机器学习技术应用于超大规模集群的资源管理实践中,围绕 资源画像、应用画像、容量管理、全自动化弹性伸缩 等前沿方向进行算法优化和平台化建设。 - 云原生方向:基于实际业务场景,建设云原生时代的云上运维平台,提升云上业务在变更发布、资源调度 等方面的效率。
职位简介:负责公司网关系统的设计、开发与优化,确保网关在高并发、复杂业务场景下的稳定高效运行,推动网关技术的创新与升级。 岗位职责: -主导公司网关系统的架构设计,包括但不限于流量管理、安全防护、服务路由等核心模块的设计与实现,满足业务快速发展的需求。 -开发高性能、高可用的网关核心功能,如请求转发、负载均衡、限流降级等,提升系统的整体性能和稳定性。 -针对不同业务场景,优化网关的性能和资源利用率,研究并应用新的技术和算法,提高网关的处理能力和响应速度。 -与其他部门(如后端开发、安全团队、运维团队等)协同工作,共同解决复杂的技术问题,确保系统之间的无缝对接和数据安全。 -跟踪网关技术的最新发展趋势,引入并评估新技术,推动公司网关系统的技术升级和创新。 -负责网关系统的性能监控与故障诊断,及时发现并解决系统中存在的问题,保障系统的持续稳定运行。 -编写高质量的代码和技术文档,为团队成员提供技术支持和指导,提升团队整体技术水平。
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。 3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。 5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。
1、制定业务域的风险&效能&成本架构演进规划,协同&推动全局架构演进,以及前瞻性的设计规划,包括网络架构、机房建设架构、平台落地架构、研发效能架构等、以及各子域的业务架构,支撑各子域间高质量高效率协同,提升业务交付效率和运营效率 2、识别业务的风险&效能&成本问题,制定相应的解决方案,并协同方案落地,最终取得业务结果 3、制定所负责域的智能化规划,运用好平台已有的数据智能能力,对于团队工作问题提出针对性的数据智能的解决方案,改进工作效率和质量 4、识别风险&效能&成本系统建设和运营过程中影响团队效率的其他问题,制定标准化、流程化、系统化、产品化等改进计划