
搜狐多云管理平台与 FinOps研发负责人
任职要求
1.本科及以上学历,计算机科学、软件工程、网络工程等相关专业,10年以上互联网或软件行业技术经验,5年以上技术团队管理经验; 2.有成功主导过中大型企业或知名大厂多云场景、混合云治理或大规模云上成本 (FinOps) 优化项目; 3.深度熟悉至少两家主流公有云 (如阿里云、腾讯云、AWS、华为云等) 的 API、计费模型及底层资源 (ECS/EC2、K8s、存储、数据库) ; 4.熟悉FinOps框架,有实际的云成本拆分、多租户分账、预算控制、成本预测系统开发经验; 5.能够平衡业务复杂度与系统实现,同时划分合适的业务边界…
工作职责
1.制定并执行公司级云管理平台(CMP)与 FinOps(云财务运营)系统的技术发展路线图; 2.主导并全面负责从0到1的多云资源纳管、跨云分账与成本优化战略落地。
团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发,服务于大模型推理的各业务场景(LLM/S2S/VLM/多模态等),包括模型分发加载、KV Cache存储和优化,数据IO性能优化,提高推理TTFT、TBT等核心性能指标; 2、负责设计和实现面向大模型推理的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS/对象存储)等多种介质进行数据的存储和迁移管理,实现「近计算缓存+远端大容量存储」的一体化分级系统; 3、负责优化大模型KV Cache命中率,从推理框架,流量调度,多级缓存等多个系统纬度入手定制化优化策略;优化数据的读取性能,充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输;优化数据副本的存放策略,实现负载流量和存储数据的合理化分布; 4、负责设计和实现高效、易用的数据访问接口,实现和推理框架、引擎的无缝对接,管理KV Cache的生命周期; 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控,确保稳定性; 6、负责多机房、多地域、多云场景的系统搭建和容灾,优化跨集群的数据摆放。
参与瓴羊Dataphin产品的研发。 瓴羊是阿里巴巴全资子公司,主营数据要素服务。瓴羊提供一整套数字化产品和服务,涵盖数据生产、数据消费以及数据流通等三大环节。帮助企业有效利用数据资源,促进数据与企业实际运营的深度融合,赋能企业增长和数字化转型。Dataphin 是瓴羊数据生产环节中代表性的产品,为企业提供数据建设、治理、运营、消费的Data x AI全链路服务,深度适配湖仓一体架构,灵活兼容多云复杂环境,助力企业高效构建标准化数据资产体系,加速释放数据价值。
1、负责云平台网络配置、网络架构优化,保障整体网络稳定和安全运行; 2、负责网络运维突发事件和问题的处理、跟踪、解决、记录和管理; 3、负责域名证书管理和维护; 4、负责网络方案测试、推进和落地; 5、参与运维自动化的开发,提升网络运维效率;