阿里云阿里云智能-百炼稳定性工程专家/高级工程师-北京/杭州
任职要求
1、计算机及相关专业,5年以上的SRE/Devops经验,有大型互联网公司运维经验者优先。 2、熟悉常见的公共云服务,熟练使用通用云产品(如VPC、ECS、SLB、RDS等),具备云原生运维经验。 3、深入理解Linux系统原理及运维体系,熟悉分布式系统设计。熟练掌握Kubernetes与Docker架构及技术原理,有大规模生产集群的部署、调优及故障…
工作职责
1、稳定性保障与体系建设:负责大模型服务平台及人工智能产品的稳定性保障工作,通过指标建设、预案设计、容量规划、监控完善、建立SOP等手段提升业务可用性与可靠性。 2、高并发流量治理:主导大规模分布式系统及高并发场景下的流量治理方案设计与实施,包括弹性扩缩容以及熔断、限流、降级等容灾策略,确保业务连续性与鲁棒性。 3、新环境部署:在新环境上进行一整套推理系统及其上下游依赖的部署和运维,负责日常模型的上架、性能监测、中间件和底层基建性能监测等。 4、Oncall与应急响应:参与OnCall值班,快速定位并解决生产环境故障,主导重大事件应急响应与复盘;建立故障快速恢复机制,推动根因分析及长效改进措施落地。 5、运维自动化:优化现有部署、监控及维护流程,推动运维自动化与平台化建设,提升研发效率与系统可观测性。负责监控/日志/网络/存储等原生基础设施的保障和工具开发。
1. 负责百炼平台大模型调优与部署等AI工具链产品化落地; 2. 负责百炼平台的调优模型推理、模型评测、模型调优、模型广场等的模块的架构设计和开发工作; 3. 了解技术使用场景和优缺点,能够就复杂技术问题,提供解决方案并执行落地,同时对上下游技术团队及技术架构有完整的了解; 4. 基于业务需求和技术洞察,在调优后模型的推理服务方面,进行技术规划并落地。
1. 作为企业客户技术服务工作的第一责任人,深入了解客户业务场景,与客户的架构、开发、运维团队深入合作,梳理分析客户现有云产品及应用架构,围绕企业客户上云、云上业务设计稳定性优化方案,从云上监控,主动发现,灾难演练,业务快恢/降级方案,高可用架构改造等方面协助客户持续优化云上稳定性。 2.通过自动化与智能化的手段高效解决对客技术服务以及客户方案落地中的各种技术问题,从客户架构视角出发进行问题处置、风险治理,并沉淀输出最佳实践及工具产品,持续推动阿里云产品及服务的优化改进。 3.结合生成式AI技术与机器学习平台工具,为客户提供从方案评估、部署实施到技术演示的一站式AI落地支持,负责算法与模型的优化,针对特定场景应用微调、评测等手动推动AI能力在客户业务中的高效转化。 4.使用阿里云的AI大模型和平台工具产品,支撑阿里云客户完成AI创新应用落地。提供Agent工程落地服务,包括数据和知识准备、工程链路搭建、提示词调优等。 5. AI相关云产品稳定性保障,AI全链路排查问题,包括SaaS层AI产品,AI相关PaaS/IaaS产品。高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情。
1. 作为企业客户技术服务工作的第一责任人,深入了解客户业务场景,与客户的架构、开发、运维团队深入合作,梳理分析客户现有云产品及应用架构,围绕企业客户上云、云上业务设计稳定性优化方案,从云上监控,主动发现,灾难演练,业务快恢/降级方案,高可用架构改造等方面协助客户持续优化云上稳定性。 2.通过自动化与智能化的手段高效解决对客技术服务以及客户方案落地中的各种技术问题,从客户架构视角出发进行问题处置、风险治理,并沉淀输出最佳实践及工具产品,持续推动阿里云产品及服务的优化改进。 3.结合生成式AI技术与机器学习平台工具,为客户提供从方案评估、部署实施到技术演示的一站式AI落地支持,负责算法与模型的优化,针对特定场景应用微调、评测等手动推动AI能力在客户业务中的高效转化。 4.使用阿里云的AI大模型和平台工具产品,支撑阿里云客户完成AI创新应用落地。提供Agent工程落地服务,包括数据和知识准备、工程链路搭建、提示词调优等。 5. AI相关云产品稳定性保障,AI全链路排查问题,包括SaaS层AI产品,AI相关PaaS/IaaS产品。高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情。