logo of aliyun

阿里云阿里云智能-运维平台高级研发专家-ABM平台架构师

社招全职8年以上云智能集团地点:杭州状态:招聘

任职要求


- 计算机相关专业,8年以上IT、互联网、云计算开发相关工作经验
- 3年以上运维开发相关经验,具备大规模分布式系统的开发背景
- 熟练掌握至少一种主流编程语言(Java/Python/Go),具备扎实的编程基础,熟悉常见的后端开发框架
- 熟练掌握云原生相关的技能,有 Kubernetes、Operator 开发、云原生运维及交付相关开发经验
- 了解 DevOps、SRE 理念,熟练掌握 CI/CD、自动化运维、可观测等相关技术
- 具备大规模运维平台的研发经验,如配置管理、监控系统、异常处置、任务调度、变更交付、服务治理等
- 具备良好的系统架构设计能力,能够推动运维平台的架构优化和技术创新
- 有跨专业、跨部门协同的复杂项目管理经验
- 对本技术领域的公司内外及业界相关资源及水平有比较深入了解,面对技术领域的不确定性,具备较好的判断力
- 在设计、架构、并发、分布式、数据、软工等多个技术领域无明显短板,能够躬身入局,快速定位并解决罕见和复杂的技术问题,且对多项技术有自己的理解和前瞻性判断

工作职责


1、技术方案设计
- 负责 ABM 运维平台的架构设计,具有前瞻性视野,满足业务快速发展和各种输出环境适配需求。
2、技术实现
- 负责ABM核心模块的开发和优化,满足大规模和高性能的需求。
- 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署。
- 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、体验改善、性能和成本优化等。
3、稳定性和性能优化
- 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。
- 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。
4、技术预研
- 跟踪和了解新的产品技术和趋势,根据业务需要提供技术支持和建议。
5、技术规划
- 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
包括英文材料
分布式系统+
Java+
Python+
Go+
后端开发+
Kubernetes+
DevOps+
CI+
CD+
服务治理+
系统设计+
相关职位

logo of aliyun
社招1年以上技术类-开发

1. 系统架构与工程落地 ● 负责AI Agent框架设计与实现,构建高可用、低延迟的AI Agent生产环境,支持百万级以上用户量的应用、部署平台 ● 负责智能体知识库、流程编排等功能开发,对接头部等流量等载体的接口,输出能力 ● 开发LLM应用基础设施,包括RAG 技术、Agent开发框架(如LangChain) MCP 协议等 ● 优化Agent与工具调用的协同机制,提升任务规划、自主决策和交互体验 ● 探索大模型与Agent技术的结合,解决复杂场景下的推理能力 2. 业务场景适配与创新 ● 推动AI Agent在搜索、营销、服务、DevOps运维等领域的落地 ● 设计符合行业需求的解决方案,如应用导购助理、客服助手、智能编程助手 ● 负责AI项目的推动落地,行业类Agent开发以及行业类RAG系统的架构设计与研发。 ● 负责技术预研、架构设计、业务模型抽象及功能开发保持对业务场景的敏锐洞察,快速熟悉业务流程并理解业务痛点,沟通并分析产品需求,制定技术方案,设计与研发核心系统及模块,推动产品快速迭代。

更新于 2025-05-28
logo of aliyun
社招5年以上云智能集团

我们正在寻找一位充满激情、经验丰富的高级技术专家,加入我们的创新团队,共同面对并解决在Serverless GPU和AI应用平台领域中的挑战性问题。 1.负责Serverless计算及AI应用托管平台的架构设计与持续优化。包括异步事件处理、GPU资源调度与弹性伸缩,AI 应用和模型托管等核心功能的设计。保障系统的高可用性、可扩展性和安全性。 2.理解业务战略及重点,并进行相应的技术架构规划并推动落地。能够为开发团队提供专业的技术指导和支持。推动分布式系统、AI应用托管等领域的知识共享和技术创新。 3.深入分析系统性能瓶颈,实施有效的优化策略,提高系统响应速度和资源使用效率。 4.加强与产品、开发、运维等部门的合作,确保技术方案的有效实施,克服项目推进中的各种障碍。 5.为关键客户提供技术支持,针对使用Serverless平台过程中出现的难题给予及时有效的解决方案,维护良好的产品体验。

更新于 2025-09-09
logo of amap
社招3年以上技术类-运维

高德运维研发团队主要负责高德运维平台的建设,对服务稳定性和用户体验负责,主要围绕如下几个方向进行卓有成效的工作: - 高可用方向:围绕混沌工程、故障自愈、全链路故障定位 等前沿技术方向进行平台化建设和智能运维大规模业务落地,提升系统的稳定性水平。 - 资源管理方向:将机器学习技术应用于超大规模集群的资源管理实践中,围绕 资源画像、应用画像、容量管理、全自动化弹性伸缩 等前沿方向进行算法优化和平台化建设。 - 云原生方向:基于实际业务场景,建设云原生时代的云上运维平台,提升云上业务在变更发布、资源调度 等方面的效率。

更新于 2025-08-12
logo of antgroup
社招3年以上技术-基础平台

云原生容器平台是全站资源管理的基础设施平台,通过Pouch,Kubernetes等容器和平台技术,为上层业务提供标准容器服务和全局资源动态分配,调度节点单集群规模超过万台,同时致力于在系统、业务多个层面,包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破,提高容器系统规模化的资源利用效率,降低大促等各种大规模复杂业务场景下的资源成本,打造智能、高效、稳定的金融级基础系统。 1、基于Kubernetes打造高性能、高可用的大规模容器计算平台,通过优化/定制/开发Kubernetes平台核心组件,实现业务对平台的功能及性能需求; 2、负责平台稳定性建设,解决操作系统内核、大规模分布式系统等领域的众多技术挑战,为蚂蚁数十个大规模集群保驾护航; 3、以产品化思维完善基础设施平台的服务设计,在平台之上设计开发新的功能体验,打造面向用户应用的智能基础设施平台。

更新于 2025-07-01