阿里云阿里云智能-数据库资源异常调度平台研发(性能监控方向)-北京
任职要求
• 3年以上IT、互联网、云计算开发相关工作经验 • 3年以上DBA、数据库研发、引擎开发等工作经验 • 对至少 1 个数据库有广泛而深入的了解,包括但不限于Oracle、PostgreSQL 和 MySQL • 在多线程、高并发分布式编程、DevOps、操作系统、虚拟机、设计模式等领域有扎实认知 • 能提供高质量代码产出和文档沉淀,积极参与推动code review,提交代码前能完成自测 • 对技术领域基本原理有深刻理解,同时具备一定技术攻坚能力,能够解决单点复杂技术问题和工单(如一个较为复杂业务的性能优化、一个较低概率出现的稳定性问题) • 具备较强的风险意识,能准确识别、暴露风险,并推动风险得到有效解决 • 具备和业务或者团队内外的上下游产品的互动能力,能够主动理解任务/需求与团队和项目其他人工作之间关系; • 初步具备中等复杂度项目的管理能力 • 熟悉技术领域相关的前沿信息渠道,定期形成相关的前沿研究文档沉淀并能在团队中进行技术分享 • 熟悉竞…
工作职责
技术方案设计 • 收集、识别、分析客户需求,并确定技术方案的目标、范围和交付成果 • 基于需求分析,进行技术可行性分析和方案评审,选择合适的技术选型、功能设计、技术架构、数据架构和开发流程等 技术实现 • 基于技术方案的拆解,按照任务目标和产出规范,完成任务/子任务的设计、编码开发和系统功能实现 • 负责核心功能的架构与代码模板的编写,开发与维护系统公用核心模块,技术架构重构、优化等 • 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署 • 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等 稳定性和性能优化 • 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠 • 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能 技术预研 • 跟踪和了解最新的产品技术和趋势,根据业务需要提供最新的技术支持和建议。 技术规划 • 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1.研发AI驱动的智能运维系统(AIOps),基于机器学习/深度学习实现故障预测、异常检测与根因分析; 2.构建系统资源优化模型,通过AI技术进行性能与资源优化、复杂问题建模与决策与系统自治; 3.探索大模型在数据以及AI系统基础设置以及运维体系的智能化升级,如自动优化、自动化决策; 4.推动AI for System技术落地,持续跟踪领域内前沿算法与工程实践。
1. 测试框架与工具开发 a. 负责 数据治理平台平台核心功能的测试用例设计、自动化测试脚本开发及测试框架搭建。 b. 基于大数据场景(如数据建模、任务调度、数据质量监控等)设计端到端测试方案。 2. 性能与稳定性测试 a. 针对数据处理流程(ETL、数据同步、任务调度)进行性能压测与瓶颈分析,保障高并发、大规模数据场景下的系统稳定性。 b. 设计并执行混沌测试、容灾测试等可靠性验证方案 3. 缺陷管理与质量保障 a. 使用缺陷跟踪工具记录、跟踪并推动问题修复,参与代码评审和测试覆盖率分析。 b. 协助产品团队优化数据开发流程,提升平台易用性与质量。 4. 技术协同与创新 ● 与研发、产品经理协作,参与需求评审、技术方案设计,提前识别潜在风险。 ● 探索 AI/ML 在测试中的应用(如自动生成测试用例、异常检测),推动测试效率提升。 ● 团队管理与协作 ● 团队建设:负责测试团队的人员管理、任务分配与绩效评估,制定团队目标并推动落地。 ● 流程优化:主导测试流程标准化(如测试用例管理、自动化测试策略),提升团队协作效率。 ● 技术指导:为团队成员提供技术培训与指导,推动团队技术能力提升。 ● 跨团队协调:与产品、研发、运维团队紧密合作,确保测试工作与业务目标对齐。 ● 资源规划:根据项目需求合理分配人力、工具和预算资源,保障测试工作的高效执行。

- 负责公司核心 SaaS 控制台的前端研发与迭代 - 基于 React + TypeScript + Vite 搭建多租户控制台、可视化配置页、实时数据 Dashboard。 - 设计并维护可复用的组件库及前端工程化体系(Monorepo、自动发布、单测/CI)。 - 承担轻量后端(BFF)开发 - 使用 Node.js(NestJS)或 Go(Gin/Fiber)编写聚合层,对接算法推理、任务调度、权限、计费等微服务。 - 保证前端到后端的数据链路高可用:接口聚合、缓存、降级、错误兜底。 - 算法业务前端接入与体验优化 - 将算法同学提供的推理/训练接口(RESTful / gRPC / SSE)在前端封装为可复用 hooks 或服务层,统一处理鉴权、重试、异常提示。 - 针对长耗时任务(CV 批处理、LLM 生成)设计「进度条 + 实时日志 + 结果预览」的交互闭环,支持断点续传、轮询/ WebSocket 推送。 - 持续优化 - 性能:SSR/CSR 混合、懒加载、前端缓存、资源压缩。 - 体验:全局错误边界、骨架屏、快捷键、无障碍支持。
1. 系统架构设计 • 主导物流领域大模型应用系统的全生命周期架构设计,包括智能调度引擎、路径优化算法、预测性分析平台等核心模块,构建高可用、可扩展的分布式系统。 • 设计基于大模型的智能决策系统架构,集成多模态数据处理(如物流轨迹、图像识别、自然语言工单)与实时推理能力,支持亿级业务请求的高并发场景。 2. 技术方案落地 • 制定大模型(如LLM、多模态模型)在物流场景的技术实施方案,包括模型选型、微调策略(如领域适配训练)、部署架构(云边端协同)及服务治理方案。 • 开发企业级AI工具链,实现自动化模型监控、弹性资源调度(Kubernetes集群)及灾备容错机制,保障生产环境稳定性。 3. 跨领域协作与优化 • 与算法团队、业务部门深度协作,将大模型能力转化为实际应用(如路径规划、智能调度、营运异常检测、运力预测),推动技术成果在运输、末端配送、中转等环节落地。 • 主导系统性能优化,通过模型压缩(量化/蒸馏)、缓存策略、计算资源调度等技术,降低端到端响应延迟与硬件成本。 4. 前沿技术研究 • 探索大模型与物流科技结合的创新场景(如自主决策Agent、数字孪生),推动RAG增强检索、多Agent协作等新技术在行业标杆项目中的应用。