快手容器云弹性研发工程师
任职要求
1、本科及以上学历,计算机、通信相关专业,有5年以上相关行业工作经验; 2、计算机基础知识扎实,掌握Golang/Java/Python其一,具备良好的算法、数据结构设计能力,注重设计模式、代码质量,具有优秀的抽象设计和业务建模能力; 3、熟悉Linux系统和容器技术,熟悉K8S、云原生技术栈,熟悉多线程、异步编程、网络编程技术; 4、具有优秀的自学能力和动手能力,较强的自我驱动力,较强的团队沟通协作能力。 加分项: 1、熟悉弹性伸缩、Serverless、FaaS方向,精通或有实践经验; 2、有高并发、高可用分布式系统设计和研发经验; 3、熟悉大规模数据挖掘、机器学习,有时序预测、异常检测、AIOPS研究或实践经验。
工作职责
1、参与容器弹性方向建设,建设高可用的弹性伸缩链路,打造百万规模容器弹性能力; 2、参与建设统一弹性伸缩框架和底座,以及HPA、VPA、定时伸缩、事件驱动、预测弹性等能力的迭代优化,支撑多样化业务场景; 3、利用大数据和智能算法等技术,建设业务容量和性能预测模型,持续打磨模型精确率,支撑业务容量的自动化和智能化管理。
字节跳动在 2015 年开启构建微服务体系,拥抱 Go 语言社区,自研微服务框架,采用 Kubernetes 和容器作为在线服务运行环境的统一标准。团队负责构建字节跳动内部容器云平台,为字节产品线提供运行基石;以超大容器集群规模整体支撑了字节内部产品线,涵盖:今日头条,抖音,西瓜视频等;同时覆盖了在线,离线,机器学习,推荐/广告/搜索等多种应用场景;在持续多年的快速增长中,积累了丰富的Kubernetes/容器超大规模应用经验,旨在打造覆盖多场景,多地域的千万级容器的大平台。其中,在微服务、流式计算等核心场景,通过在离线混部项目,有效实现 40% 的 CPU 资源节省,天级平均利用率达到 60% 以上。 1、参与混部和统一调度技术方案的架构设计和核心代码开发,通过混部和潮汐资源满足离线大数据/ML训练等场景的资源需求; 2、解决混部和并池场景下,多租户之间的资源协调、弹性出让、性能隔离等技术难题; 3、通过数据与机器学习算法给调度系统提供更加准确和智能的决策,在满足不同类型(在线服务/流批计算/训练推理/存储服务...)工作负载混跑时的 SLO 前提下,尽可能高提升机器利用率; 4、通过数据分析等手段,挖掘多种场景的潜在优化空间; 5、具备良好的沟通协调能力,推进混部技术在多种业务场景落地。
1.负责 TKE 容器平台的设计、开发和优化,包括但不限于集群管理、弹性伸缩、组件治理、权限管理、镜像仓库等; 2.负责数万 Kubernetes 集群的生命周期管理、稳定性提升及性能优化; 3.负责数千万核心资源的调度优化及资源利用率提升,并将相关能力产品化; 4.研究和探索容器技术的新方向,跟踪容器技术的发展趋势,持续优化产品性能和用户体验。
1. 负责公司弹性云调度相关产品和服务的研发,包括支持弹性云调度架构,k8s核心单机组件kubelet,核心调度策略,用户画像,弹性云层次化监控和反馈机制,以及海量容器下的弹性云分布式公共组件开发等极具挑战性的工作内容与方向; 2. 根据业务需求,对调度策略进行不断的优化和提升,提供合理性的调度方案和策略; 3. 优化系统性能,提升弹性云调度的质量,同时兼顾成本和调度性能,持续优化提升业务核心指标,增加系统稳定性,保障业务运行。
-负责 GPU 场景下弹性裸金属服务器与弹性云主机的架构设计、核心模块开发及性能优化工作,保障服务的稳定性、可扩展性与算力效率 -研究并落地最新硬件加速技术(如 GPU 虚拟化增强、硬件卸载等),针对性提升 GPU 的计算能力、资源利用率及能效比 -参与 GPU 平台的整体设计与开发,定义 GPU 算力与平台组件(如存储、网络、调度系统)的集成方案,确保端到端算力交付效率 -跟踪 GPU 及云计算领域的技术趋势,输出技术调研报告,为平台技术选型与架构迭代提供决策支撑 -协同产品、测试、运维团队建立高效协作流程,覆盖需求评审、方案设计、开发联调、测试验证、上线运维全流程,推动产品按期高质量上线