阿里云阿里云智能-网络资源管理高级专家-杭州
任职要求
• 8年以上云计算/ICT/运营商行业的云网络资源/物理资源管理工作经验 • 运用数据处理与分析的方式进行资源的计算、排布、运营等工作,提出数据模型、推动平台建设,牵头运营专项落地 • 资源管理和运营的整体方案设计,通过运营提升资源利用率,控制资源损耗率,同时提升单资源的运营效益 • 对云计算的云网络资源、物理资源有深入理解,熟悉资源之间的逻辑关系,熟悉监管与资源应用的变化规律,以及资源与成本的映射关系,参与运营策略的迭代 • 负责重大项目和资源管理,确…
工作职责
1、网络资源交付管理 •理解内外部客户、产品运营等各方需求,资源的需求承接可行性分析,资源策略,规格定制,准入验证,以及生产,部署,上线的护航保障 ,在保障齐套交付的基础上,同时负责协调项目系统流程处理,交付结果系统同步; •负责交付结果指标,云资源/物理资源齐套交付,针对资源交付与齐套过程中的供需异常、生产与交付风险,及时组织相关团队协同,吹哨升级重大风险,跟踪闭环,支撑面向交付的供应资源齐套方案 •负责复杂交付场景(涉及多个交付场景,像新开服、CPAAS客户场景化交付等)的整体端到端交付; •交付业务流程中的相关环节的运营:供应链方案、SOW下发、预检测、资源上下线方案、资源结构方案、资源调度策略实施、资源利用率优化等; •负责业务运营过程的指标管理(如SLA管理,交付质量管理),以及相关事件的分析、复盘持续迭代; •资源调用链路等故障处理、分析,指导现场定位问题,以及相关事件的分析、复盘持续迭代 •监控交付SLA库存健康度,输出优化策略,牵引交付模式优化和能力建设,提升交付效率,结合计划迭代优化库存配置,降低呆滞风险 2、网络资源交付能力运营 •负责云资源/物理资源交付涉及的业务流程的优化迭代,适配新需求、新场景的落地,不断的提升交付竞争力; •负责落实云资源/物理资源的交付效率、交付质量和交付成本运营能力的构建,落实资源调度策略、系统能力和运营规则,并按期持续运营; •负责云资源/物理资源的外包管理和能力建设,构成持续稳定的交付; •负责云资源/物理资源的新产品NPI交付方案制定,落地和改进优化,持续提升新产品交付能力 。 3、网络资源成本管控 • 建设资源成本映射模型,客观、准确度量及监控资源全生命周期内的成本表现,从云资源/物理资源视角或产品视角构建资源、成本、效能、部署等系统平台,基于平台动态的监控资源成本异常,挖掘资源成本优化方向 •协同上下游部门,驱动从技术降成本、运营降成本、资源降成本等维度,持续运营和降低产品单位可售卖成本; •负责监控交付成本,针对异常项目或紧急需求,落实成本显性呈现和责任归属; 4、提升资源利用率 • 建设客观、准确的资源利用率模型,围绕采买/持有的各类资产、服务等资源,通过资源预测与预警、库存管理、采购策略优化、运营优化、技术迭代等方式提升资源利用率 • 建设单位资源效益测算模型,客观、准确度量及监控资源全生命周期内的效益表现,构建资源效益运营平台
1、日常运维 • 负责数据中心日常运维及管理工作,制定数据中心基础设施运维策略与运维计划,保障设施稳定性,均衡考虑运维质量、效率、成本及安全 • 通过设施数字化运维管理,提高机房管控能力和兜底能力,保障维修及时率、风险闭环率等各项指标达标。 2、安全合规 • 落实数据中心内所有岗位的安全生产要求,推动数据中心在环保、消防、职业健康、法务、廉正等方面的合规运营,防止出现人员/设备的重大责任事故、行政处罚/责令整改等被动监管事件。 • 识别安全合规风险,建立并完善风险管理机制,负责重大事件的上报和跟踪处理。 • 建立属地资源网络管理,推动与属地政府关系的全方位深化,为属地稳定安全合规运营提供坚实保障。 3、优化改进 • 负责所辖数据中心的设施运维工作优化,制定/梳理阿里IDC运维管理制度、操作手册、应急管理流程和应急操作预案。 • 负责阿里IDC能效优化工作,实现机房高效运行。 • 负责协同经营成本团队,通过建立成本分析模型、人效模型,实现对成本效率的精细化分析管控,达成经营目标。 4、技术支撑 • 负责数据中心运维侧技术管理,能带领团队通过技术管理为数据中心设计、设备选型等技术迭代提供技术支撑。 • 承担业务设备的现场技术支持,了解业务需求和网络结构,通过团队合作有效支撑数据中心运营。 5、团队管理 • 负责数据中心运维团队的日常管理、考核、人才梯队建设、能力培养,规划数据中心运维人员技术培训工作,提升运维团队服务水平。 • 建立与运营商、上级主管等部门间顺畅的沟通渠道,防止出现数据中心运营风险,确保阿里运营策略要求合规落地。
1、面向AI大规模训练与推理、大数据处理、函数计算等新兴场景对大规模组网和高并发网络资源弹性提出的严苛需求,主导云网络控制面整体技术架构的设计,为云网络控制面的长期技术竞争力提供坚实支撑; 2、面向云网络业务的长期稳定性,设计云网络控制面的中长期架构治理、架构革新的技术方案和规划,建设配套运维运营基础设施并推动落地; 3、探索实践AI coding应用于控制面日常研发和运维的新范式,持续提升云网络研发和运维效率; 4、通过进一步规范资源交付体系和交付工具设计,提升包括AI集群等资源的交付效率。
1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。
负责SMB AI业务的技术交付和服务策略的制定和执行,搭建围绕SMB AI用户的服务与交付体系,保障项目交付与服务高质量落地,打造和推广技术服务的影响力。 (一) SMB AI业务的策略制定与拆解:依据公司的经营战略、市场分析和数据洞察,以及SMB AI客户及业务反馈,制定SMB AI业务的服务与交付的策略规划和拆解,设定业务目标。联动SMB销售、公司产研、服务、采购、BI、财务等上下游相关方,确保策略高质量落地、业务目标达成。 (二) 技术交付与服务的流程规范及经营体系建设:建立并完善SMB AI业务的技术服务与交付履约管理规范,明确核心业务节点组织管理要求和一线执行规范,拆解提炼标准执行动作,通过数据化方式监控管理要求落地执行情况。 (三) AI项目管理:基于交付履约流程规范,做好售前风险评审管控、项目过程质量管控,建立重点项目风险问题升级决策机制。 (四) 交付伙伴管理:结合业务策略,制定并落实生态伙伴的拓展、维护、成长、汰换机制,培育生态伙伴资源及网络,提升SMB AI项目的技术交付与服务能力。 (五) 客户分析与市场洞察:定期进行AI市场调研,深入分析AI客户需求。根据用户需求、行业趋势、市场动态,识别潜在机会与威胁,调整和优化交付与服务的策略。