阿里云诚云科技-高级运维工程师(大模型方向)-政企技术服务
任职要求
• 在中型企业或云服务提供商从事SRE、运维工具开发、客户技术服务相关工作,具备2年及以上工作经验
• 熟悉云集群各运维平台和云产品及监控平台使用方法,能够快速专业定位客户问题
• 具备一定集群调优和trouble shooting能力
• 或者掌握分布式系统原理,对存储、计算、流式计算中的一项或多项有深…工作职责
1、客户现场专项技术负责人,如网络专项、数据库专项; 2、平台稳定性重大变更方案制定与实施,如性能/存储优化、底座改造等; 3、现场故障应急执行,协助原厂尽快恢复平台运行; 4、关键时刻现场保障,如客户平台隐患深度排查与治理; 5、复杂问题原因定位及解决;
1、负责网易云音乐、Loft、支付等核心业务的系统与平台运维,涵盖操作系统、容器、分布式存储(Ceph)等方向,保障大规模业务的稳定运行; 2、**运维智能化**:设计并实现运维场景下的 AI Agent 系统,包括故障自愈 Agent、智能告警分析 Agent、变更风险评估 Agent 等,提升运维自动化与智能化水平; 3、参与线上业务运维,对线上业务的稳定性负责,利用 LLM 技术辅助故障诊断、根因分析与复盘报告生成,缩短 MTTR; 4、**SDD(Spec-Driven Development)实践**:运用 AI 辅助编写技术规范、运维手册与应急预案,构建可执行的运维知识库,推动文档即代码(Doc-as-Code)的智能化升级; 5、研发和优化运维工具/平台,将 AI 能力与自动化能力赋能给业务和其他团队,建设智能运维(AIOps)平台,提升整体效率; 6、**Prompt 工程与 LLM 应用**:针对运维场景优化大模型应用效果,构建领域专属的 Prompt 模板与知识库 RAG 系统; 7、跟进业界前沿运维技术与云原生体系,探索 AI 在可观测性、容量管理、故障预测等场景的创新应用,不断提升系统可靠性与运维质量。
1.Agent核心框架研发: 负责排障AI Agent的核心框架设计与开发,包括任务规划(Planning)、工具调用(Tool-use)、记忆(Memory)等关键模块,持续提升Agent的自主决策与执行能力; 2.Agent效果评测与迭代: 主导设计并落地Agent自动化评测体系,并基于线上失效案例(如规划错误、幻觉)的深入分析,驱动模型、Prompt及工具链的持续优化; 3.大模型后训练与优化: 负责大模型的后训练流程,包括构建高质量SFT数据集、实施Fine-tuning与RLHF/DPO等优化策略,并建立评测-训练-部署的闭环,持续提升模型在排障领域的专业能力。
1.Agent核心框架研发: 负责排障AI Agent的核心框架设计与开发,包括任务规划(Planning)、工具调用(Tool-use)、记忆(Memory)等关键模块,持续提升Agent的自主决策与执行能力; 2.Agent效果评测与迭代: 主导设计并落地Agent自动化评测体系,并基于线上失效案例(如规划错误、幻觉)的深入分析,驱动模型、Prompt及工具链的持续优化; 3.大模型后训练与优化: 负责大模型的后训练流程,包括构建高质量SFT数据集、实施Fine-tuning与RLHF/DPO等优化策略,并建立评测-训练-部署的闭环,持续提升模型在排障领域的专业能力。
1. 产品研发:负责营销方向产品迭代,联合业务推进AI化转型,使用 React、MachPro/Mach等建设大营销体系,保障研发过程质量、交付周期、产品稳定性、产品用户体验; 2. 架构设计:负责推进营销方向工程架构和业务架构的设计与优化,提升研发效率和质量; 3. 技术体系建设:主导外卖终端H5领域技术体系建设,包括前端工程化解决方案Nine、H5性能方案演进(H5容器能力增强、SSR落地)、探索AI+工程化提升开发/交付效率,提升用户体验,赋能业务快速发展; 4. 稳定性保障:构建前端监控告警、容灾与灰度发布能力,提升故障发现率,提升运维效率,保障业务高可用性。 5. 团队赋能:负责前端技术布道与团队能力提升,通过技术分享提升团队影响力,通过方案评审、代码评审等方式帮助团队成员成长;