字节跳动资源成本分析和优化专家-基础设施
任职要求
1、本科及以上学历,计算机、数学、财务相关专业优先;
2、5年以上服务器/网络/IDC/带宽/专线等云计算基础资源成本分析和优化经验…工作职责
1、学习基础设施资源定价、账单计算逻辑和运作体系; 2、针对业务需求场景,归纳汇总对基础资源成本分析和数据挖掘的需求; 3、深入了解业务资源成本类痛点,协同制定基础资源关键成本指标,下钻挖掘数据和分析,看清成本,为成本优化提供数据支撑和决策依据;挖掘成本优化机会点,协同推进落地,提升成本竞争力; 4、推进基础资源成本分析和数据挖掘模型平台化建设,实现高效自动化的成本分析能力; 5、具体良好的沟通协调能力,推进成本分析和数据挖掘体系在多种业务场景落地。
1,负责阿里云海外基础设施品类采购,包括不限于IDC、网络、带宽、工程服务等 2,做好采购需求管理,分析和评估采购要求的合理性和可行性,确定采购项目的预算和时间计划、并与内部相关部门达成一致 3,组织与供应商的商务洽谈和采购谈判,管理采购合同的签署和执行,确保合同条款的合规性和有效性、跟进与监控合同履行情况 4,管理采购成本,确保采购项目在预算范围内进行,在谈判中争取最有利的采购条件和价格,分析采购成本结构,制定成本控制策略和措施,降低采购成本、提升采购效率 5,遵循公司的采购政策和合规要求,审查和优化采购流程,确保采购过程高效、透明和规范,参与采购流程的数字化和自动化改进,提升采购效率
作为推理系统与引擎的研发和优化专家,将主导或参与面向Qwen等模型的真实业务工作负载的端到端推理性能分析与优化工作,具体职责包括但不限于: - 针对重点模型实际业务场景下的推理部署方案进行不同层级的性能验证,对典型负载特征进行深入分析建模,支撑模型演进、推理架构选型与资源规划; - 根据任务负载特点,对模型不同并行策略(如TP/DP/EP/PP/CP)进行深入分析,并结合分布式部署架构(PD/AF分离等),实现和验证不同层面技术的协同优化方案,提升端到端性能; - 分析和验证不同后端高性能Kernel在不同模型和负载下的性能表现,根据具体需求对关键算子运用各类优化手段进行定制化加速,提升硬件利用率; - 关注和探索前沿快速解码技术方法以及其它推理优化和加速技术,结合实际场景进行验证,并在推理系统与各类优化方案无缝集成,提供极致的用户体验; - 与周边工程、模型、系统、产品团队紧密协作,将优化成果落地到生产环境,并持续跟踪线上性能表现。
1、日常运维 • 负责数据中心日常运维及管理工作,制定数据中心基础设施运维策略与运维计划,保障设施稳定性,均衡考虑运维质量、效率、成本及安全 • 通过设施数字化运维管理,提高机房管控能力和兜底能力,保障维修及时率、风险闭环率等各项指标达标。 2、安全合规 • 落实数据中心内所有岗位的安全生产要求,推动数据中心在环保、消防、职业健康、法务、廉正等方面的合规运营,防止出现人员/设备的重大责任事故、行政处罚/责令整改等被动监管事件。 • 识别安全合规风险,建立并完善风险管理机制,负责重大事件的上报和跟踪处理。 • 建立属地资源网络管理,推动与属地政府关系的全方位深化,为属地稳定安全合规运营提供坚实保障。 3、优化改进 • 负责所辖数据中心的设施运维工作优化,制定/梳理阿里IDC运维管理制度、操作手册、应急管理流程和应急操作预案。 • 负责阿里IDC能效优化工作,实现机房高效运行。 • 负责协同经营成本团队,通过建立成本分析模型、人效模型,实现对成本效率的精细化分析管控,达成经营目标。 4、技术支撑 • 负责数据中心运维侧技术管理,能带领团队通过技术管理为数据中心设计、设备选型等技术迭代提供技术支撑。 • 承担业务设备的现场技术支持,了解业务需求和网络结构,通过团队合作有效支撑数据中心运营。 5、团队管理 • 负责数据中心运维团队的日常管理、考核、人才梯队建设、能力培养,规划数据中心运维人员技术培训工作,提升运维团队服务水平。 • 建立与运营商、上级主管等部门间顺畅的沟通渠道,防止出现数据中心运营风险,确保阿里运营策略要求合规落地。
1、日常运维 • 负责数据中心日常运维及管理工作,制定数据中心IT运维策略与运维计划,保障IT稳定性,均衡考虑运维质量、效率、成本及安全 • 通过IT数字化运维管理,提高机房管控能力和兜底能力,保障维修及时率、风险闭环率等各项指标达标。 2、安全合规 • 落实数据中心内所有岗位的安全生产要求,推动数据中心在环保、消防、职业健康、法务、廉正等方面的合规运营,防止出现人员/设备的重大责任事故、行政处罚/责令整改等被动监管事件。 • 识别安全合规风险,建立并完善风险管理机制,负责重大事件的上报和跟踪处理。 • 建立属地资源网络管理,推动与属地政府关系的全方位深化,为属地稳定安全合规运营提供坚实保障。 3、优化改进 • 负责所辖数据中心的IT运维工作优化,制定/梳理阿里IDC运维管理制度、操作手册、应急管理流程和应急操作预案。 • 负责阿里IDC能效优化工作,实现机房高效运行。 • 负责协同经营成本团队,通过建立成本分析模型、人效模型,实现对成本效率的精细化分析管控,达成经营目标。 4、技术支撑 • 负责数据中心运维侧技术管理,能带领团队通过技术管理为数据中心设计、设备选型等技术迭代提供技术支撑。 • 承担业务设备的现场技术支持,了解业务需求和网络结构,通过团队合作有效支撑数据中心运营。 5、团队管理 • 负责数据中心运维团队的日常管理、考核、人才梯队建设、能力培养,规划数据中心运维人员技术培训工作,提升运维团队服务水平。 • 建立与运营商、上级主管等部门间顺畅的沟通渠道,防止出现数据中心运营风险,确保阿里运营策略要求合规落地。