阿里云阿里云智能-网络资源管理高级专家-杭州
任职要求
• 8年以上云计算/ICT/运营商行业的云网络资源/物理资源管理工作经验 • 运用数据处理与分析的方式进行资源的计算、排布、运营等工作,提出数据模型、推动平台建设,牵头运营专项落地 • 资源管理和运营的整体方案设计,通过运营提升资源利用率,控制资源损耗率,同时提升单资源的运营效益 • 对云计算的云网络资源、物理资源有深入理解,熟悉资源之间的逻辑关系,熟悉监管与资源应用的变化规律,以及资源与成本的映射关系,参与运营策略的迭代 • 负责重大项目和资源管理,确保组织目标的达成。 • 推动整体资源规划落地,协同跨部门业务、产品、技术、服务、采购等团队形成合力,提前暴露风险,建设影响力,保证高效高质的执行。 • 规划和设计组织的资源管理体系。 • 赋能团队提升本专业资源管理水平,通过数据化的产研模式洞察分析,提升组织协作效率。 • 组织所在专业的资源运营目标的制定与拆解,形成整体规划 • 负责组织所在组织的资源计划整体方案制定并提供决策支持,并协同横向团队和干系人,形成整体方案决议达成共识,推动问题的上升和决策。
工作职责
1、网络资源交付管理 •理解内外部客户、产品运营等各方需求,资源的需求承接可行性分析,资源策略,规格定制,准入验证,以及生产,部署,上线的护航保障 ,在保障齐套交付的基础上,同时负责协调项目系统流程处理,交付结果系统同步; •负责交付结果指标,云资源/物理资源齐套交付,针对资源交付与齐套过程中的供需异常、生产与交付风险,及时组织相关团队协同,吹哨升级重大风险,跟踪闭环,支撑面向交付的供应资源齐套方案 •负责复杂交付场景(涉及多个交付场景,像新开服、CPAAS客户场景化交付等)的整体端到端交付; •交付业务流程中的相关环节的运营:供应链方案、SOW下发、预检测、资源上下线方案、资源结构方案、资源调度策略实施、资源利用率优化等; •负责业务运营过程的指标管理(如SLA管理,交付质量管理),以及相关事件的分析、复盘持续迭代; •资源调用链路等故障处理、分析,指导现场定位问题,以及相关事件的分析、复盘持续迭代 •监控交付SLA库存健康度,输出优化策略,牵引交付模式优化和能力建设,提升交付效率,结合计划迭代优化库存配置,降低呆滞风险 2、网络资源交付能力运营 •负责云资源/物理资源交付涉及的业务流程的优化迭代,适配新需求、新场景的落地,不断的提升交付竞争力; •负责落实云资源/物理资源的交付效率、交付质量和交付成本运营能力的构建,落实资源调度策略、系统能力和运营规则,并按期持续运营; •负责云资源/物理资源的外包管理和能力建设,构成持续稳定的交付; •负责云资源/物理资源的新产品NPI交付方案制定,落地和改进优化,持续提升新产品交付能力 。 3、网络资源成本管控 • 建设资源成本映射模型,客观、准确度量及监控资源全生命周期内的成本表现,从云资源/物理资源视角或产品视角构建资源、成本、效能、部署等系统平台,基于平台动态的监控资源成本异常,挖掘资源成本优化方向 •协同上下游部门,驱动从技术降成本、运营降成本、资源降成本等维度,持续运营和降低产品单位可售卖成本; •负责监控交付成本,针对异常项目或紧急需求,落实成本显性呈现和责任归属; 4、提升资源利用率 • 建设客观、准确的资源利用率模型,围绕采买/持有的各类资产、服务等资源,通过资源预测与预警、库存管理、采购策略优化、运营优化、技术迭代等方式提升资源利用率 • 建设单位资源效益测算模型,客观、准确度量及监控资源全生命周期内的效益表现,构建资源效益运营平台
1. 核心系统研发 (1)设计与优化大模型推理服务框架与分布式缓存系统。 (2)支持多推理引擎适配、多模态推理、分布式部署及高效数据管理。 (3)开发工具链与服务化能力,包括模型量化、转换、调度与生命周期管理。 2. 性能与稳定性优化 (1)优化推理服务框架的性能,包括引擎适配、生命周期管理和资源调度。 (2)深入优化kvcache的显存、内存和存储管理、批处理、缓存策略和网络传输。 (3)支持高性能通信协议、容错与负载均衡机制。 (4)提升系统可观测性,完善监控、告警与故障恢复体系。 3. 引擎与应用集成 (1)深度集成推理引擎、缓存系统和存储系统,优化访问模式与架构设计。 (2)满足大规模、多模态推理场景下的高吞吐与低延迟需求。
负责SMB AI业务的技术交付和服务策略的制定和执行,搭建围绕SMB AI用户的服务与交付体系,保障项目交付与服务高质量落地,打造和推广技术服务的影响力。 (一) SMB AI业务的策略制定与拆解:依据公司的经营战略、市场分析和数据洞察,以及SMB AI客户及业务反馈,制定SMB AI业务的服务与交付的策略规划和拆解,设定业务目标。联动SMB销售、公司产研、服务、采购、BI、财务等上下游相关方,确保策略高质量落地、业务目标达成。 (二) 技术交付与服务的流程规范及经营体系建设:建立并完善SMB AI业务的技术服务与交付履约管理规范,明确核心业务节点组织管理要求和一线执行规范,拆解提炼标准执行动作,通过数据化方式监控管理要求落地执行情况。 (三) AI项目管理:基于交付履约流程规范,做好售前风险评审管控、项目过程质量管控,建立重点项目风险问题升级决策机制。 (四) 交付伙伴管理:结合业务策略,制定并落实生态伙伴的拓展、维护、成长、汰换机制,培育生态伙伴资源及网络,提升SMB AI项目的技术交付与服务能力。 (五) 客户分析与市场洞察:定期进行AI市场调研,深入分析AI客户需求。根据用户需求、行业趋势、市场动态,识别潜在机会与威胁,调整和优化交付与服务的策略。
容器统一调度与在离线混部方向 岗位职责 1.负责公司容器调度平台的架构设计和核心功能开发,包括容器资源管理、调度优化、弹性伸缩等模块。 2.设计和实现在线与离线任务的混部调度方案,优化集群资源的整体利用率,实现计算、存储和网络资源的高效调度。 3.针对不同业务场景,研究并改进 Kubernetes 调度算法,包括任务优先级、抢占机制、节点选择等,提升集群的资源分配效率和稳定性。 4.与多集群管理平台、资源隔离、QoS 管理等模块协同工作,确保在复杂场景下的资源调度策略具备高可用性和可扩展性。 5.跟踪云原生生态的最新发展趋势,研究并应用新技术以提升系统性能和调度灵活性。 6.支持系统的性能监控与故障诊断,参与系统优化和技术问题的快速解决,保障系统的高效稳定运行。
阿里国际数字商业集团,是阿里巴巴集团的核心且快速增长的业务。 契合国家“一带一路”的战略方向,在国际化的大蓝海赛道上高速驰骋,连续多年收入增长在30%以上。旗下业务覆盖近200个国家、市场,服务于4亿的全球消费者,囊括跨境电商、本地电商、B2B、O2O零售、供应链网络等多元化的业务形态,在全球近30个国家与地区设置办公地点,拥有超过20种不同国籍的员工。 商业智能部是商业分析与决策支持部门,我们依托于阿里国际集团的全球化大数据以及阿里多年的商业分析经验沉淀,拥有来自于互联网、咨询、投资、传统行业等多元化背景的团队,产生多视角、全方位的立体洞察,支持集团以及各事业部与职能部门管理者的关键决策。 我们深入业务,通过有智慧的数据洞察, 紧密结合的业务场景,实现从宏观市场到微观战术的商业分析与判断,为决策层提供关键数据洞察、核心策略参考、支持主要的各项决策制定与优化,达到数据驱动业务的完美实践。 1、内部经营分析:基于业务目标及商业模式,搭建全面、准确、客观的指标体系和监控框架。同时基于业务监控体系,清晰洞察业务全局和定位业务问题; 2、通过分析报告或专题研究等形式,对业务问题进行深入分析,为平台机制、行业/商家策略、产品方向、资源投入策略等业务决策提供数据和分析支撑,输出经营管理建议,协助达成业务目标并提升效率; 3、将监控体系及分析方法逐步总结沉淀,抽象、提炼数据产品需求,与产品、商业智能分析等相关团队开展跨部门合作并推动数据产品的落地; 4、市场研究及分析:关注跨境电商赛道动态,分析和跟踪业内玩家的业务动作和表现,输出行业分析洞察报告。