阿里云诚云科技-高级技术服务工程师-公共云TAM(北区)
任职要求
• 在中型企业或云服务提供商从事SRE、运维工具开发、客户技术服务相关工作,具备2年及以上工作经验 • 具备云原生、大数据、数据库、网络、中间件等领域中的一项或多项技术理解和应用经验 • 了解分布式计算、存储、数据库、网络的各项功能和操作,同时对同类开源或友商的产品有所了解 • 对云产品及微服务相关技术有较体系化的认知,并在1-2个技术方向有所研究(如中间件、分布式事务、消息中心、大数据等),对部分核心源码有一定研读 • 具备单体架构选型和设计能力,并能对客户和生态技术研发过程的问题具备代码排查能力 • 可在指导下提炼客户通用需求,能够识别客户的业务需求 • 主动沟通和换位思考,加深沟通的主题和深度 • 职业化的书面沟通,比如客户沟…
工作职责
1、云产品稳定性保障,风险巡检:客户云产品稳定性、体验相关事项治理,产品风险巡检,故障的应急跟进与处理; 2、客户技术专项处置与支持:复杂、疑难问题/技术方案/活动护航保障/产研共建专项主导与管理工作; 3、排查问题,管控体验:高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情; 4、专精客户行业,技术沉淀:提炼客户行业技术服务方案,沉淀内部技术文档,持续提高公共云/混合云各行业最佳实践能力;
1. 作为企业客户技术服务工作的第一责任人,深入了解客户业务场景,与客户的架构、开发、运维团队深入合作,梳理分析客户现有云产品及应用架构,围绕企业客户上云、云上业务设计稳定性优化方案,从云上监控,主动发现,灾难演练,业务快恢/降级方案,高可用架构改造等方面协助客户持续优化云上稳定性。 2.通过自动化与智能化的手段高效解决对客技术服务以及客户方案落地中的各种技术问题,从客户架构视角出发进行问题处置、风险治理,并沉淀输出最佳实践及工具产品,持续推动阿里云产品及服务的优化改进。 3.结合生成式AI技术与机器学习平台工具,为客户提供从方案评估、部署实施到技术演示的一站式AI落地支持,负责算法与模型的优化,针对特定场景应用微调、评测等手动推动AI能力在客户业务中的高效转化。 4.使用阿里云的AI大模型和平台工具产品,支撑阿里云客户完成AI创新应用落地。提供Agent工程落地服务,包括数据和知识准备、工程链路搭建、提示词调优等。 5. AI相关云产品稳定性保障,AI全链路排查问题,包括SaaS层AI产品,AI相关PaaS/IaaS产品。高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情。
1. 作为企业客户技术服务工作的第一责任人,深入了解客户业务场景,与客户的架构、开发、运维团队深入合作,梳理分析客户现有云产品及应用架构,围绕企业客户上云、云上业务设计稳定性优化方案,从云上监控,主动发现,灾难演练,业务快恢/降级方案,高可用架构改造等方面协助客户持续优化云上稳定性。 2.通过自动化与智能化的手段高效解决对客技术服务以及客户方案落地中的各种技术问题,从客户架构视角出发进行问题处置、风险治理,并沉淀输出最佳实践及工具产品,持续推动阿里云产品及服务的优化改进。 3.结合生成式AI技术与机器学习平台工具,为客户提供从方案评估、部署实施到技术演示的一站式AI落地支持,负责算法与模型的优化,针对特定场景应用微调、评测等手动推动AI能力在客户业务中的高效转化。 4.使用阿里云的AI大模型和平台工具产品,支撑阿里云客户完成AI创新应用落地。提供Agent工程落地服务,包括数据和知识准备、工程链路搭建、提示词调优等。 5. AI相关云产品稳定性保障,AI全链路排查问题,包括SaaS层AI产品,AI相关PaaS/IaaS产品。高效排查解决产品技术售后问题,在服务过程中关注客户体验提升、有效管控客情。
岗位描述: 1. 企业级 AI Agent 工程落地指导 作为客户 AI 应用技术服务的第一责任人,深入理解客户业务场景与技术痛点,主导Agent等工程全链路落地服务:从 RAG 构建、知识库向量化、Prompt Engineering 调优,到多 Agent 协作编排、工具链集成与 Function Call调试,确保 AI Agent 在生产环境高效运行。 2. 大模型训练与推理全链路架构设计,负责从数据到模型端到端技术支持 数据侧:设计数据采集、清洗、标注流程,搭建高质量训练数据 Pipeline 训练侧:基于 PAI 平台进行模型微调(SFT/RLHF)、LoRA 适配、分布式训练集群调度 推理侧:优化推理性能(KV Cache、Flash Attention)、推理服务弹性伸缩、Tokens成本治理 3. AI 云原生稳定性保障 从客户架构视角出发,通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系,覆盖 SaaS 层(百炼/通义)、PaaS 层(PAI/DashScope)、IaaS 层(GPU 实例/高速网络)。结合大模型业务的高并发、长文本等流量特征,制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。 4. 卓越架构护航从公共云企业客户的业务视角出发,基于云上卓越架构最佳实践,主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度,推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案,确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。

岗位描述: 1. 企业级 AI Agent 工程落地指导 作为客户 AI 应用技术服务的第一责任人,深入理解客户业务场景与技术痛点,主导Agent等工程全链路落地服务:从 RAG 构建、知识库向量化、Prompt Engineering 调优,到多 Agent 协作编排、工具链集成与 Function Call调试,确保 AI Agent 在生产环境高效运行。 2. 大模型训练与推理全链路架构设计,负责从数据到模型端到端技术支持 数据侧:设计数据采集、清洗、标注流程,搭建高质量训练数据 Pipeline 训练侧:基于 PAI 平台进行模型微调(SFT/RLHF)、LoRA 适配、分布式训练集群调度 推理侧:优化推理性能(KV Cache、Flash Attention)、推理服务弹性伸缩、Tokens成本治理 3. AI 云原生稳定性保障 从客户架构视角出发,通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系,覆盖 SaaS 层(百炼/通义)、PaaS 层(PAI/DashScope)、IaaS 层(GPU 实例/高速网络)。结合大模型业务的高并发、长文本等流量特征,制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。 4. 卓越架构护航从公共云企业客户的业务视角出发,基于云上卓越架构最佳实践,主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度,推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案,确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。