
智能互联阿里云智能-技术服务经理TAM-公共云互联网KA客户-北京
任职要求
1. 2年以上泛娱乐、零售、金融、教育等行业大型互联网应用(含AI原生应用)或集团型企业应用的研发、架构设计、监控方案、Devops、AIops、维护、高可用改造方案经验。 2. 熟悉Agent开发框架及工具(LangChain/Dify/LlamaIndex/百炼等),模型推理框架(vLLM /sglang),模型训练框架(LlamaFactory、swift等),具备GPU集群调度、资源隔离、显存优化相关经验,能够解决大规模算力下的性能瓶颈与稳定性问题。 3. 熟悉主流大模型推理框架(如 vLLM, Triton Inference Server, TensorRT-LLM, TGI 等)。 4. 了解 NVIDIA GPU 底层架构及分布式通信机制(如 NVLink, NCCL, RDMA/RoCE 高速网络)。 5. 熟悉JAVA、Python、GO其中一门开发语言,熟悉常见中间件、数据库、大数据组件,如Redis、Nacos、K8s、Kafka、…
工作职责
岗位描述: 1. 企业级 AI Agent 工程落地指导 作为客户 AI 应用技术服务的第一责任人,深入理解客户业务场景与技术痛点,主导Agent等工程全链路落地服务:从 RAG 构建、知识库向量化、Prompt Engineering 调优,到多 Agent 协作编排、工具链集成与 Function Call调试,确保 AI Agent 在生产环境高效运行。 2. 大模型训练与推理全链路架构设计,负责从数据到模型端到端技术支持 数据侧:设计数据采集、清洗、标注流程,搭建高质量训练数据 Pipeline 训练侧:基于 PAI 平台进行模型微调(SFT/RLHF)、LoRA 适配、分布式训练集群调度 推理侧:优化推理性能(KV Cache、Flash Attention)、推理服务弹性伸缩、Tokens成本治理 3. AI 云原生稳定性保障 从客户架构视角出发,通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系,覆盖 SaaS 层(百炼/通义)、PaaS 层(PAI/DashScope)、IaaS 层(GPU 实例/高速网络)。结合大模型业务的高并发、长文本等流量特征,制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。 4. 卓越架构护航从公共云企业客户的业务视角出发,基于云上卓越架构最佳实践,主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度,推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案,确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。
1. 作为企业客户技术服务工作的第一责任人,深入了解客户业务场景,与客户的架构、开发、运维团队深入合作,梳理分析客户现有云产品及应用架构,围绕企业客户上云、云上业务设计稳定性优化方案,从云上监控,主动发现,灾难演练,业务快恢/降级方案,高可用架构改造等方面协助客户持续优化云上稳定性。 2. 与阿里云各团队充分合作,从客户架构视角出发进行问题处置、护航保障、风险治理,并沉淀输出最佳实践及工具产品,面向客户痛点主动进行专项高阶服务。 3. 追踪客户关键稳定性问题,持续协助客户治理并不断推动阿里云产品及服务的优化改进。
岗位描述: 1. 企业级 AI Agent 工程落地指导 作为客户 AI 应用技术服务的第一责任人,深入理解客户业务场景与技术痛点,主导Agent等工程全链路落地服务:从 RAG 构建、知识库向量化、Prompt Engineering 调优,到多 Agent 协作编排、工具链集成与 Function Call调试,确保 AI Agent 在生产环境高效运行。 2. 大模型训练与推理全链路架构设计,负责从数据到模型端到端技术支持 数据侧:设计数据采集、清洗、标注流程,搭建高质量训练数据 Pipeline 训练侧:基于 PAI 平台进行模型微调(SFT/RLHF)、LoRA 适配、分布式训练集群调度 推理侧:优化推理性能(KV Cache、Flash Attention)、推理服务弹性伸缩、Tokens成本治理 3. AI 云原生稳定性保障 从客户架构视角出发,通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系,覆盖 SaaS 层(百炼/通义)、PaaS 层(PAI/DashScope)、IaaS 层(GPU 实例/高速网络)。结合大模型业务的高并发、长文本等流量特征,制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。 4. 卓越架构护航从公共云企业客户的业务视角出发,基于云上卓越架构最佳实践,主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度,推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案,确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。
Location: 杭州市西湖区西溪谷国际商务中心G座 上海在静安区氪空间 北京在昌平龙泽地铁站滴滴天空之城A座 我们这里是滴滴国际金融最重要的业务和技术底盘,用技术的手段将底盘能力做扎实(即保障资金安全、业务系统高可用), 国际化业务才能在更专注的去追寻业务的高速发展,不用因为技术底盘不扎实而影响业务的发展。如果你对这一块有兴趣,会得到比较快的技术成长 * 国际化业务目前发展势头良好。 * 资金安全&高可用,预防线上的资损问题和高可用问题,是国际金融业务的核心技术和底盘。 * 团队氛围开放积极,有机会与国内外各部门业务与技术进行日常交流学习。 职责要求: 1、滴滴国际化金融(IBG FinTech) 技术风险能力建设,包含应急能力、变更防御、红蓝攻防、性能容量、资金安全,构建Fintech技术风险体系; 2、参与重大项目的技术风险保障工作,对技术风险领域进行评审和分析; 3、贴身业务,挖掘业务风险,沉淀技术风险领域标杆,释放研发技术风险投入,更聚焦在业务研发上; 4、明星业务,多底盘充满了挑战和机遇,欢迎来战。