字节跳动云原生稳定性专家/架构师-基础技术
任职要求
1、担任过以下一个或者多个工作角色:研发、运维、质量、稳定性、技术风险; 2、容器和K8S技术知识扎实,有K8S实践经验,深入理解K8S的架构和设计; 3、具有丰富稳定性工程经验,对以下一个或者几个有深入理解和实践:SLA体系、高可用架构、监控与可观测性、容量治理、DevOps、变更管控、故障应急等; 4、具备较强的团队沟通与协助…
工作职责
1、负责火山引擎云原生容器平台产品的稳定性保障,通过平台建设/架构优化/组织提升等手段,不断提升云产品系统稳定性; 2、负责容器平台和大规模容器集群的稳定性保障,完成可靠性分析与优化;深入分析业务架构和系统运行时,持续识别稳定性薄弱环节,负责技术难点的攻坚,提升系统核心链路的整体稳定性; 3、参与火山引擎云原生容器平台产品的运维管控平台规划建设,设计实现相关自动化运维、分析诊断和保障体系,打造面向多地域超大规模集群的自动化运维和管控体系。
团队介绍:字节跳动豆包大模型团队(Seed)成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限,并探索新的交互。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 豆包大模型团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责机器学习系统存储相关组件的设计和开发,服务于大模型推理的各业务场景(LLM/S2S/VLM/多模态等),包括模型分发加载、KV Cache存储和优化,数据IO性能优化,提高推理TTFT、TBT等核心性能指标; 2、负责设计和实现面向大模型推理的多层级存储系统,综合利用显存、本地内存、分布式内存/磁盘、远端大容量存储系统(HDFS/对象存储)等多种介质进行数据的存储和迁移管理,实现「近计算缓存+远端大容量存储」的一体化分级系统; 3、负责优化大模型KV Cache命中率,从推理框架,流量调度,多级缓存等多个系统纬度入手定制化优化策略;优化数据的读取性能,充分利用近计算侧的NVLink、RDMA高速网络、GPU Direct技术实现数据的高效传输;优化数据副本的存放策略,实现负载流量和存储数据的合理化分布; 4、负责设计和实现高效、易用的数据访问接口,实现和推理框架、引擎的无缝对接,管理KV Cache的生命周期; 5、负责Kubernetes场景下多级存储系统的接入、管理、运维、监控,确保稳定性; 6、负责多机房、多地域、多云场景的系统搭建和容灾,优化跨集群的数据摆放。
1、技术方案设计 - 负责 ABM 运维平台的架构设计,具有前瞻性视野,满足业务快速发展和各种输出环境适配需求。 2、技术实现 - 负责ABM核心模块的开发和优化,满足大规模和高性能的需求。 - 对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署。 - 对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、体验改善、性能和成本优化等。 3、稳定性和性能优化 - 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠。 - 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能。 4、技术预研 - 跟踪和了解新的产品技术和趋势,根据业务需要提供技术支持和建议。 5、技术规划 - 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
1、负责互联网客户的售前工作,支持销售拿到业务结果,提升销售额 2、作为技术专家,提供客户迁移上云或者关键需求实现的解决方案,并在落地过程中提供必要的技术指导,确保方案可落地、有竞争力 3、参与客户的方案比选,做POC演示和功能/性能测试,在保证性能和安全性的前提下做到成本最优,性价比最高 4、负责某一垂直细分互联网行业(在线教育,互娱,游戏,交易,产业互联网等)的IT市场洞察、解决方案、打法策略的制定及落地,深入理解该行业的IT和DT需求,能够把握行业的市场和技术发展趋势,推动行业产品、解决方案和合作生态的落地 5、建立行业影响力,组织内外部行业沙龙,做技术分享,传播云原生最佳实践 6、为互联网客户整体IT规划提供支持,指导客户构建安全、弹性、高可用、可扩展的企业IT架构,包括业务系统、监控体系、DevOps、大数据、AI等子系统,从成本、效率、稳定性三个维度提升客户的IT能力
1、负责互联网/传统企业客户的售前工作,支持销售拿到业务结果,提升销售额 2、作为技术专家,提供客户迁移上云或者关键需求实现的解决方案,并在落地过程中提供必要的技术指导,确保方案可落地、有竞争力 3、参与客户的方案比选,做POC演示和功能/性能测试,在保证性能和安全性的前提下做到成本最优,性价比最高 4、负责某一垂直细分行业(互联网/零售/制造等)的IT市场洞察、解决方案、打法策略的制定及落地,深入理解该行业的IT和DT需求,能够把握行业的市场和技术发展趋势,推动行业产品、解决方案和合作生态的落地 5、建立行业影响力,组织内外部行业沙龙,做技术分享,传播云原生最佳实践 6、为客户提供企业IT轻咨询服务,为企业整体IT规划提供支持,指导客户构建安全、弹性、高可用、可扩展的企业IT架构,包括业务系统、监控体系、DevOps、大数据、AI等子系统,从成本、效率、稳定性三个维度提升客户的IT能力