字节跳动AIOps开发工程师-基础设施
任职要求
1、扎实的计算机与网络基础:深刻理解数据中心网络架构(如Spine-Leaf Fabric),熟悉EVPN/VXLAN、BGP/OSPF等关键协议,并对Linux网络协议栈有深入的了解; 2、卓越的软件工程能力:精通Golang或Python,具备出色的编码和系统设计能力;熟悉微服务、容器化(Docker/Kubernetes)以及CI/CD等现代软件开发流程; 3、丰富的平台研发经验:在以下一个或多个领域有实践经验者优先: 1)大数据处理:熟悉Kafka、Flink、ClickHouse/TSDB等,有构建实时数据管道和分析系统…
工作职责
1、构建全景网络可观测性平台:打造覆盖物理和虚拟网络的Streaming Telemetry数据管道,整合GNMI、NETCONF、IPFIX/NetFlow、SNMP等多源数据,为AIOps提供高质量、高时效性的数据基石; 2、研发智能诊断与根因分析系统:应用机器学习与深度学习算法,对海量网络指标、日志、事件进行异常检测、关联分析与智能降噪,快速定位从光模块、交换机硬件、协议邻居到应用层流量的全链路故障根因; 3、探索LLM与Agent的创新应用: 1)智能运维助理:构建基于RAG(检索增强生成)的运维对话机器人,使其能理解自然语言问题,自动查询知识库与监控数据,提供精准的故障排查指引和网络状态报告;2)自动化修复与智能Runbook:训练运维Agent,使其能够安全、可控地调用网络工具与API;基于对故障场景的理解,自主生成、推荐甚至执行修复方案与应急预案(Runbook); 4、建设容量与风险预测能力:基于历史数据和业务增长模型,预测网络容量瓶颈、高风险链路与“亚健康”设备,驱动主动扩容和预防性维护; 5、打造坚如磐石的工程体系:遵循最佳工程实践,设计和开发高可用、可扩展的AIOps平台与服务;保障从数据采集、模型训练、在线推理到自动化闭环全流程的稳定性和性能。
1. 负责互联网基础架构(大数据、运维、安全等)相关效能平台的设计和开发工作,面向AI原生时代的基建效能平台开发,通过大模型技术重构传统运维、数据、安全体系,打造具备自进化能力的智能基础设施中台; 2. 智能平台开发:基于大模型开发AIOps工具,实现日志分析/故障预测自动化;构建Prompt工程框架,优化LLM在运维场景的落地效率; 3. DataOps体系建设:搭建自动化数据流水线,集成质量监控与版本控制功能;开发DataAgent实现自然语言交互式数据查询; 4. 安全架构优化:设计AI驱动的威胁感知系统,实现攻击模式预测;开发敏感数据自动识别与合规审计工具; 5. 云原生运维:优化K8s资源调度算法与智能扩缩容策略。
1. 负责互联网基础架构(大数据、运维、安全等)相关效能平台的设计和开发工作,面向AI原生时代的基建效能平台开发,通过大模型技术重构传统运维、数据、安全体系,打造具备自进化能力的智能基础设施中台; 2. 智能平台开发:基于大模型开发AIOps工具,实现日志分析/故障预测自动化;构建Prompt工程框架,优化LLM在运维场景的落地效率; 3. DataOps体系建设:搭建自动化数据流水线,集成质量监控与版本控制功能;开发DataAgent实现自然语言交互式数据查询; 4. 安全架构优化:设计AI驱动的威胁感知系统,实现攻击模式预测;开发敏感数据自动识别与合规审计工具; 5. 云原生运维:优化K8s资源调度算法与智能扩缩容策略。
1. 负责互联网基础架构(大数据、运维、安全等)相关效能平台的设计和开发工作,面向AI原生时代的基建效能平台开发,通过大模型技术重构传统运维、数据、安全体系,打造具备自进化能力的智能基础设施中台; 2. 智能平台开发:基于大模型开发AIOps工具,实现日志分析/故障预测自动化;构建Prompt工程框架,优化LLM在运维场景的落地效率; 3. DataOps体系建设:搭建自动化数据流水线,集成质量监控与版本控制功能;开发DataAgent实现自然语言交互式数据查询; 4. 安全架构优化:设计AI驱动的威胁感知系统,实现攻击模式预测;开发敏感数据自动识别与合规审计工具; 5. 云原生运维:优化K8s资源调度算法与智能扩缩容策略。