字节跳动AIOps开发工程师-基础设施
任职要求
1、扎实的计算机与网络基础:深刻理解数据中心网络架构(如Spine-Leaf Fabric),熟悉EVPN/VXLAN、BGP/OSPF等关键协议,并对Linux网络协议栈有深入的了解; 2、卓越的软件工程能力:精通Golang或Python,具备出色的编码和系统设计能力;熟悉微服务、容器化(Docker/Kubernetes)以及CI/CD等现代软件开发流程; 3、丰富的平台研发经验:在以下一个或多个领域有实践经验者优先: 1)大数据处理:熟悉Kafka、Flink、ClickHouse/TSDB等,有构建实时数据管道和分析系统…
工作职责
1、构建全景网络可观测性平台:打造覆盖物理和虚拟网络的Streaming Telemetry数据管道,整合GNMI、NETCONF、IPFIX/NetFlow、SNMP等多源数据,为AIOps提供高质量、高时效性的数据基石; 2、研发智能诊断与根因分析系统:应用机器学习与深度学习算法,对海量网络指标、日志、事件进行异常检测、关联分析与智能降噪,快速定位从光模块、交换机硬件、协议邻居到应用层流量的全链路故障根因; 3、探索LLM与Agent的创新应用: 1)智能运维助理:构建基于RAG(检索增强生成)的运维对话机器人,使其能理解自然语言问题,自动查询知识库与监控数据,提供精准的故障排查指引和网络状态报告;2)自动化修复与智能Runbook:训练运维Agent,使其能够安全、可控地调用网络工具与API;基于对故障场景的理解,自主生成、推荐甚至执行修复方案与应急预案(Runbook); 4、建设容量与风险预测能力:基于历史数据和业务增长模型,预测网络容量瓶颈、高风险链路与“亚健康”设备,驱动主动扩容和预防性维护; 5、打造坚如磐石的工程体系:遵循最佳工程实践,设计和开发高可用、可扩展的AIOps平台与服务;保障从数据采集、模型训练、在线推理到自动化闭环全流程的稳定性和性能。
1. 负责AI训练推理服务高可用方向工作,如推理框架、推理在线服务、训练平台、训练框架等。 2. 负责以上平台的集群的资源治理、数字化管理等平台的研发。 3. 通过软硬件协同优化和技术创新,为双11、双12大促,新春红包等重大活动的保障与业务护航。
1.研发AI驱动的智能运维系统(AIOps),基于机器学习/深度学习实现故障预测、异常检测与根因分析; 2.构建系统资源优化模型,通过AI技术进行性能与资源优化、复杂问题建模与决策与系统自治; 3.探索大模型在数据以及AI系统基础设置以及运维体系的智能化升级,如自动优化、自动化决策; 4.推动AI for System技术落地,持续跟踪领域内前沿算法与工程实践。
1、负责AI时代的数据库架构设计:涵盖支持AI/ML工作负载的新型数据库系统架构,优化AI模型训练与推理的数据访问效率;构建支持向量搜索、图计算、时序分析等AI场景的混合型数据库解决方案,探索LLM大模型与数据库系统的深度集成方案,如自然语言SQL生成、智能查询优化; 2、负责数据库智能策略研发:研发基于AI的数据库性能调优系统,包括自动索引推荐、查询计划优化、资源分配策略等;构建智能监控系统,实现异常检测、根因分析、容量预测等AIOps能力;开发自适应存储引擎,根据数据访问模式动态调整存储结构; 3、负责AI数据基础设施构建:构建AI数据基础设施,如支持特征工程、模型训练、推理服务的全流程数据管道架构,实现数据库与机器学习框架(TensorFlow/PyTorch)的高效对接; 4、负责AI与数据库结合的实践方案探索与落地:探索AI技术和数据库各产品结合的最佳实践方案并落地,服务超大规模的集团内部业务及火山引擎业务。
1、负责AI时代的数据库架构设计:涵盖支持AI/ML工作负载的新型数据库系统架构,优化AI模型训练与推理的数据访问效率;构建支持向量搜索、图计算、时序分析等AI场景的混合型数据库解决方案,探索LLM大模型与数据库系统的深度集成方案,如自然语言SQL生成、智能查询优化; 2、负责数据库智能策略研发:研发基于AI的数据库性能调优系统,包括自动索引推荐、查询计划优化、资源分配策略等;构建智能监控系统,实现异常检测、根因分析、容量预测等AIOps能力;开发自适应存储引擎,根据数据访问模式动态调整存储结构; 3、负责AI数据基础设施构建:构建AI数据基础设施,如支持特征工程、模型训练、推理服务的全流程数据管道架构,实现数据库与机器学习框架(TensorFlow/PyTorch)的高效对接; 4、负责AI与数据库结合的实践方案探索与落地:探索AI技术和数据库各产品结合的最佳实践方案并落地,服务超大规模的集团内部业务及火山引擎业务。