阿里云阿里云智能-应用管理平台技术专家-北京/杭州
任职要求
岗位要求: 1、 熟悉Java基础技术栈,包括SpringBoot、Mybatis、分布式缓存、消息队列等,熟MySQL等主流数据库以及Linux下的常用命令 2、熟悉常用设计模式,最好有大型应用的开发经验,具备应对大数据、分布式、高并发、高负载、高可用性…
工作职责
阿里专有云应用运维与可观测团队,为专有云客户提供极致用云的解决方案与产品矩阵,帮助企业更好地管理IT服务和基础设施,提高运维效率、运维安全性以及业务连续性 岗位职责: 1、 参与并负责云+应用一体化运维平台的设计与实现,包括应用蓝图、自动化发布、应用容灾、资源编排等能力 2、参与并负责全景监控的设计与实现,围绕健康画像构建监管控一体化AIOPS运维平台,实现故障的快速发现、智能定位以及高效恢复链路闭环 3、参与并负责专有云日志服务SLS的设计与实现,为Log、Metric、Trace等可观测数据提供一站式采集、加工、查询与分析、可视化与告警、消费与投递等能力 4、参与并负责专有云应用市场的设计与实现,基于开发者中心与交付中心打造专有云产品生态体系 5、参与并负责专有云统一CMDB、流程引擎、终态引擎、监控采集和计算等基础技术的设计与实现
1、技术方案设计 • 收集、识别、分析客户的需求,针对收集的需求进行合理性分析,围绕资源运维、资源交付、资源管理、资源调度平台,主导相关技术目标的制定、技术方案的设计、撰写和交付 • 基于需求分析,结合当前的平台与技术架构,主导和设计满足需求场景下的架构设计、技术选型、概要设计、详细设计,保障相关系统方案的前瞻性、先进性、可行性、可落地性 • 基于可行性的设计方案,进行合理的模块化分工和拆分,有效的组织各个系统与业务模块的设计方案评审,保障项目的交付进展 2、系统技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,进行任务的分解和分工,有效的组织和主导各个任务的设计、编码开发、功能实现、发布部署升级工作 • 负责核心功能的架构与核心模块的代码开发,主导相关模块的方案讨论、代码Review、重难点突破与攻坚、性能调试优化,推动项目的成功部署与发布升级 • 负责整个系统的稳定性、性能、监控与运维能力的开发和设计工作,保障整个系统的运行稳定性、性能、可运维能力 • 持续维护和迭代相关系统的服务能力,包括值班oncall、bug排查、问题诊断、产品体验改善、性能和成本优化等 • 编写技术文档,如操作手册、故障排除指南、API文档等,以支持日常答疑运维工作 3、安全、稳定、效率和性能优化 • 运用产品优化技术和方法,实现安全保障和优化系统性能,提高阿里云产品管控安全性,同时帮助客户提效,给客户更好的体验 4、技术预研 • 跟踪和了解国内外资源运维平台技术发展和趋势,结合业务实际需要提供有效的技术支持和架构建议 5、技术规划 • 理解业务重点与难点,基于业务需求主导和设计高可用、高并发、高拓展、低成本的技术架构规划、并推动相关方案的实施与落地
1. 负责大模型应用和系统整体架构设计与演进,打造具备弹性调度能力、服务稳定、低延迟响应的全链路应用和系统。 2. 主导平台的 DevInfra 能力建设,覆盖CI/CD、灰度发布、可观测性、异常诊断与系统治理等关键模块,提升研发交付效率。 3. 优化业务、平台、应用的架构设计,持续提升平台能力与技术领先性。
1. 作为技术负责人,制定并推动多模态交互系统的端云整体工程架构演进路线,覆盖端侧推理、客户端集成、云端服务及协同策略。 2. 主导端侧AI推理框架的设计与优化,包括模型加载、算子加速、内存管理、功耗控制、异构计算(CPU/GPU/NPU)调度等,确保大模型在资源受限设备上的高效运行。 3. 负责Android客户端核心交互模块的架构设计与开发,包括多模态输入采集、实时通信、状态管理、离在线切换、异常恢复等关键能力。 4. 设计高并发、低延迟、可扩展的云端推理服务架构,支持语音识别、大模型生成、多模态融合等服务的弹性部署与动态扩缩容。 5. 构建端云协同机制,实现任务卸载、上下文同步、模型热更新、A/B测试等能力,提升系统整体鲁棒性与迭代效率。 6. 带领应用工程团队,负责关键技术方案评审、核心模块编码、性能压测、线上稳定性保障及团队技术能力建设。 7. 与算法、产品、芯片、测试及客户解决方案团队紧密协作,推动系统从原型验证到规模化商用落地。