阿里云阿里云智能-资源运营专家-云通信供应链团队-杭州
任职要求
• 5年以上云计算/ICT/运营商行业工作经验,有云通信行业或云通信资源运营经验者优先; • 对云通信短信/语音/国际业务资源有深入理解,熟悉各类资源之间的逻辑关系,理解行业监管与运营商资源应用的变化规律,了解资源供给与成本质量的映射关系; • 具备资源运营全过程管理能力,善于寻求资源解决问题,必要时做好资源交付的优先级变更及资源业务平衡等工作,确保云…
工作职责
1、资源供给及交付管理 •理解内外部客户、产品运营等各方需求,通过云通信运营需求可行性分析,拟定资源策略,并开展采购协同及资源部署和上线的保障 ,确保稳定供给; •负责交付结果指标,针对云通信资源交付过程中的供需异常、生产与交付风险,及时组织相关团队协同和跟踪闭环,支撑面向供应资源整套方案,并协调资源交付流程化运营,交付结果数字化运营,提升供给交付效率,持续开展供应链方案优化、SOW下发及验证、资源上下线方案、资源结构化方案、资源调度策略实施、资源利用率优化等; •负责资源运营过程的指标管理(如SLA管理,交付质量管理),负责资源调用链路等故障处理、分析,指导现场定位问题,以及相关事件的分析、复盘持续迭代;监控交付SLA库存健康度,输出优化策略,牵引交付模式优化和能力建设,提升交付效率; •负责云通信资源运营的外包管理和能力建设,负责云通信资源交付业务流程的优化迭代,适配新需求、新场景的落地,不断的提升资源竞争力; 2、成本管控 • 优化云通信资源成本映射模型,客观、准确度量及监控云通信资源全生命周期内的成本表现,从云通信资源视角或产品视角构建资源供给、行业成本、通道质量等系统平台,基于平台动态的监控资源成本异常,挖掘资源成本优化方向; •协同上下游部门,驱动从技术降本、运营降本、资源降本等维度,持续运营和降低单位产品的可售卖成本;持续监控交付成本,针对异常项目或紧急需求,落实成本显性呈现和责任归属; •持续开展云通信资源交付质量和交付成本运营能力的构建,落实资源调度策略、系统能力和运营规则,并按期持续运营; 3、提升资源利用率 • 建设客观、准确的资源运营质量模型,围绕各类通道资源,通过资源预测与预警、库存管理、采购策略优化、运营优化、技术迭代等方式提升资源利用率; • 建设单位资源效益测算模型,客观、准确度量及监控资源全生命周期内的效益表现,构建资源效益运营平台;

1、资源供给及交付管理 •理解内外部客户、产品运营等各方需求,通过云通信运营需求可行性分析,拟定资源策略,并开展采购协同及资源部署和上线的保障 ,确保稳定供给; •负责交付结果指标,针对云通信资源交付过程中的供需异常、生产与交付风险,及时组织相关团队协同和跟踪闭环,支撑面向供应资源整套方案,并协调资源交付流程化运营,交付结果数字化运营,提升供给交付效率,持续开展供应链方案优化、SOW下发及验证、资源上下线方案、资源结构化方案、资源调度策略实施、资源利用率优化等; •负责资源运营过程的指标管理(如SLA管理,交付质量管理),负责资源调用链路等故障处理、分析,指导现场定位问题,以及相关事件的分析、复盘持续迭代;监控交付SLA库存健康度,输出优化策略,牵引交付模式优化和能力建设,提升交付效率; •负责云通信资源运营的外包管理和能力建设,负责云通信资源交付业务流程的优化迭代,适配新需求、新场景的落地,不断的提升资源竞争力; 2、成本管控 • 优化云通信资源成本映射模型,客观、准确度量及监控云通信资源全生命周期内的成本表现,从云通信资源视角或产品视角构建资源供给、行业成本、通道质量等系统平台,基于平台动态的监控资源成本异常,挖掘资源成本优化方向; •协同上下游部门,驱动从技术降本、运营降本、资源降本等维度,持续运营和降低单位产品的可售卖成本;持续监控交付成本,针对异常项目或紧急需求,落实成本显性呈现和责任归属; •持续开展云通信资源交付质量和交付成本运营能力的构建,落实资源调度策略、系统能力和运营规则,并按期持续运营; 3、提升资源利用率 • 建设客观、准确的资源运营质量模型,围绕各类通道资源,通过资源预测与预警、库存管理、采购策略优化、运营优化、技术迭代等方式提升资源利用率; • 建设单位资源效益测算模型,客观、准确度量及监控资源全生命周期内的效益表现,构建资源效益运营平台;
1. IoT解决方案设计 : • 主导客户前期需求调研与场景分析,协同产品、硬件、算法及研发团队,完成端到端的IoT产品解决方案架构案设计及落地; • 沉淀项目经验,提炼可复用的方案模板、集成规范与最佳实践,推动解决方案标准化与规模化复制; 2. 市场洞察与产品需求转化: • 紧密跟踪智能穿戴、智能家居、智能模组等领域的技术演进、用户行为与行业趋势,深入理解To C用户体验与To B行业痛点; • 将市场洞察转化为清晰的产品定义与技术需求,支撑智能手表、智能眼镜、家庭中枢、物联网模组等产品的孵化与迭代; 3. 客户沟通与技术推广: • 面向品牌客户、ODM/OEM厂商、行业集成商等输出定制化IoT解决方案(如低功耗连接方案、AIoT模组集成、跨设备协同体验、云边端一体化架构等),清晰阐述技术优势、应用场景与商业价值; • 主导技术交流、方案演示、POC验证及竞品对比,高效响应客户在硬件适配、系统集成、数据安全、量产落地等方面的技术咨询; 4. 产品协同与孵化支持: • 基于业务战略与市场需求,配合产品与技术团队输出高质量的需求文档,推动创新方案从概念验证走向产品化与商业化; • 参与早期产品定义,协助制定Go-to-Market策略,支持样机测试、生态对接与渠道落地; 5. 跨团队协作与资源整合: • 联动产品、硬件、算法、软件、供应链、测试、运营及商务团队,高效推进从方案设计到量产交付的全链路协作,加速业务闭环与规模化落地。
【业务介绍】 作为公司统一的机器学习平台团队,负责调度公司所有模型训练与推理资源;基于自建的训推引擎,构建公司统一的机器学习平台,为公司所有算法同学(稀疏 & 稠密,含 LLM) 模型迭代提供端到端的一站式服务;包括 数据生产,模型训练,模型上线,特征管理,模型测试,资源管控等一系列能力。 【岗位职责】 1、负责机器学习链路,离在线数据相关的开发工作,包括样本数据、特征数据等的数据链路搭建、任务运维和调优、性能优化等 2、负责小红书大规模机器学习平台的后台系统设计和开发工作;包括样本平台,特征平台,训练平台,推理平台等AI应用后台建设等; 3、研究分析业内AI平台产品,优化技术方案,改进产品功能,完善产品体验。
大模型具备很强的泛化及理解世界能力,在小红书内的众多生产场景遍地开花,大模型的训练和部署已成为许多算法工程师的日常。在多团队、多业务频繁使用的大规模GPU集群上,如何能够通过高效的GPU调度策略,使大家不仅能丝滑地完成训练及部署任务,同时也能充分激发大规模GPU集群的效能,是行业公认的关键挑战。在这里,你可以聚焦LLM场景,接触到超大规模GPU集群,并使用真实负载数据进行深入分析及技术探索。欢迎加入我们,一起探索领先技术改变世界! 工作职责: 1、负责万卡规模GPU集群效能分析及优化,通过调度策略优化、在离线混部、集群调度、GPU虚拟化、故障快速恢复、存储&网络加速等手段,提升大规模GPU集群的整体使用效率。 2、负责构建面向大模型训练、微调、推理、部署全流程LLMOps,与下游云原生平台深度融合,支撑大模型在公司内各业务生产链路稳定高效地落地。 3、持续关注业界最新的GPU资源调度相关技术动态,探索建设业界领先的资源调度策略及方法,构建下一代大规模AI资源调度系统。