【阿里云】阿里云智能-异构GPU实例研发专家-杭州/上海/北京

社招5年以上技术类-开发

蚂蚁HCS 算力服务是全站通算，智算资源管理的基础设施平台, 通过Kubernetes等容器和平台技术，为上层业务提供云原生服务，AI算力服务，全局资源动态分配，调度节点单集群规模超过万台，同时致力于在系统、业务多个层面，包括os/kernel、容器/PaaS、智能调度/仿真容量等进行技术突破，提高容器系统规模化的资源利用效率，降低大促等各种大规模复杂业务场景下的资源成本，打造智能、高效、稳定的智算基础设施平台本岗位负责在云原生，AI快速发展的背景下，能够面向异构的物理资源，设计和实现大规模的k8s集群节点和资源的管理能力 ● 算力调度产品架构研发：负责设计通算，智算的算力调度，优化的平台架构，实现算力的弹性伸缩，分时调度，能够设计训推混部的统一架构平台，实现算力资源有效利用 ● 节点池架构与异构资源管理：负责节点池架构设计，实现算力节点池的产品化管理能力，支持CPU/GPU等异构资源的统一调度与资源隔离，优化AI异构场景下的节点管理策略，提升大规模集群的资源利用率与任务执行效率。 ● 算力节点生命周期产品化管理：建设节点生命周期的全链路产品化能力，设计并实现节点故障预测与主动运维能力，支持算力节点与模型实例的自动化发现与自愈，能够保障算力的稳定和持续供给。 ● 技术创新与成本优化：探索云原生与AI技术结合的创新场景（如弹性节点池、智能调度算法），推动资源管理效率的持续提升。通过资源预测、库存优化等手段，降低集群运维成本与资源浪费

更新于 2025-06-11杭州

阿里云智能-技术服务经理TAM-公共云互联网KA客户-北京

社招2年以上云智能集团

岗位描述： 1. 企业级 AI Agent 工程落地指导作为客户 AI 应用技术服务的第一责任人，深入理解客户业务场景与技术痛点，主导Agent等工程全链路落地服务：从 RAG 构建、知识库向量化、Prompt Engineering 调优，到多 Agent 协作编排、工具链集成与 Function Call调试，确保 AI Agent 在生产环境高效运行。 2. 大模型训练与推理全链路架构设计，负责从数据到模型端到端技术支持数据侧：设计数据采集、清洗、标注流程，搭建高质量训练数据 Pipeline 训练侧：基于 PAI 平台进行模型微调（SFT/RLHF）、LoRA 适配、分布式训练集群调度推理侧：优化推理性能（KV Cache、Flash Attention）、推理服务弹性伸缩、Tokens成本治理 3. AI 云原生稳定性保障从客户架构视角出发，通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系，覆盖 SaaS 层（百炼/通义）、PaaS 层（PAI/DashScope）、IaaS 层（GPU 实例/高速网络）。结合大模型业务的高并发、长文本等流量特征，制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。 4. 卓越架构护航从公共云企业客户的业务视角出发，基于云上卓越架构最佳实践，主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度，推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案，确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。

更新于 2026-04-03北京

阿里云智能-技术服务经理TAM-公共云互联网KA客户-北京

社招2年以上

岗位描述： 1. 企业级 AI Agent 工程落地指导作为客户 AI 应用技术服务的第一责任人，深入理解客户业务场景与技术痛点，主导Agent等工程全链路落地服务：从 RAG 构建、知识库向量化、Prompt Engineering 调优，到多 Agent 协作编排、工具链集成与 Function Call调试，确保 AI Agent 在生产环境高效运行。 2. 大模型训练与推理全链路架构设计，负责从数据到模型端到端技术支持数据侧：设计数据采集、清洗、标注流程，搭建高质量训练数据 Pipeline 训练侧：基于 PAI 平台进行模型微调（SFT/RLHF）、LoRA 适配、分布式训练集群调度推理侧：优化推理性能（KV Cache、Flash Attention）、推理服务弹性伸缩、Tokens成本治理 3. AI 云原生稳定性保障从客户架构视角出发，通过自动化巡检、AIOps 工具链推动问题主动发现与风险预防。构建 AI 云原生全链路可观测体系，覆盖 SaaS 层（百炼/通义）、PaaS 层（PAI/DashScope）、IaaS 层（GPU 实例/高速网络）。结合大模型业务的高并发、长文本等流量特征，制定 GPU 算力集群的弹性扩缩容策略。负责推理延迟优化、显存 OOM 治理、模型服务灰度发布、模型流量调度、算力混沌工程、故障快速定位与 RCA 沉淀。 4. 卓越架构护航从公共云企业客户的业务视角出发，基于云上卓越架构最佳实践，主导客户云系统的持续诊断与重构。围绕高性能、高可用、安全合规、运维提效与成本精细化管理五大维度，推动架构的标准化与现代化升级。攻坚 AI 基础设施与传统业务系统的异构集成难题。设计并落地云上弹性伸缩方案，确保大模型/AI 业务在云端环境下的无缝对接、平滑扩缩容与极致弹性。

更新于 2026-04-03北京

AI异构计算工程师

社招A77463A

负责火山引擎-IaaS异构云服务研发，聚焦在云上提供满足AI场景，尤其是大模型训练和推理的异构算力需求，构建高性能、高利用率、高稳定性的云上计算平台。主要工作包括： 1、负责云上IaaS异构ECS/裸金属实例的构建与迭代； 2、负责IaaS异构稳定性系统的设计和研发，识别典型问题，提出解决方案，提升客户稳定性体验； 3、协同上下游团队，推动关键问题的解决优化，并构建平台能力。

更新于 2024-01-08杭州

阿里云阿里云智能-异构GPU实例研发专家-杭州/上海/北京

任职要求

工作职责