腾讯数据平台部-大数据运维工程师
任职要求
1.熟悉hadoop、Flink、Olap等大数据生态技术,有过集群搭建,运维,性能调优等经验,可以阅读组件源代码进行问题定位; 2.熟练掌握一门以上编程语言(java/python/golang等…
工作职责
1.负责腾讯大数据平台运维工作,通过设计、开发运维平台,解决运营过程中质量和效率问题; 2.负责梳理现有服务流程、规范和存在的问题,并给出可行方案; 3.负责前后端运营效率工具开发,包括但不限于:容量管理平台、DevOps、覆盖率、自动化、健康度等。
1.负责腾讯大数据平台运维工作,通过设计、开发运维平台,解决运营过程中质量和效率问题; 2.负责梳理现有服务流程、规范和存在的问题,并给出可行方案; 3.负责前后端运营效率工具开发,包括但不限于:容量管理平台、DevOps、覆盖率、自动化、健康度等。
1、数据资产管理平台开发与治理 构建企业级数据资产管理平台,构建数据清晰的血缘,支持高效溯源。 建立元数据管理、数据血缘追踪、质量监控与安全合规体系。 2、知识图谱构建与优化 从结构化/非结构化数据中提取实体与关系,构建行业知识图谱(如客户关系图谱)。 通过规则引擎、NLP模型持续优化图谱质量。 3、AI助理系统开发 集成大语言模型(LLM)与垂直知识库,开发智能问答、自然语言查询及自动化报表功能。 设计API/Web接口,支持业务用户通过自然语言调用数据服务(如“查询某产品的销售趋势”)。 搭建模型训练与部署框架,实现AI能力快速迭代。 4、数据安全合规与质量管理 建立数据质量指标(完整性、一致性、准确性),开发自动化检测与修复工具。 实现异常数据实时告警(如延迟、权限越权),并通过邮件/SMS/企业微信通知责任人。 5、平台性能与稳定性保障 优化Spark/Flink任务性能,提升高并发场景下的平台稳定性。 监控系统运行状态,设计容灾机制与自动化运维工具,降低故障率。
-负责服务器集群的自动化运维、监控等运维与设计开发工作,自动化运维各组件和服务的上线、部署、运维,提升服务器运维的自动化程度,提升服务器集群的效率和能力 -负责服务器硬件自动化运维设计与开发工作,含服务器PXE系统开发,服务器OS安装,OS镜像制作,格盘,挂盘,压测,服务器重启,重装等 -负责硬件监控和运维平台技术的调研和可行性验证,探索运维自动化和智能化的技术和方向 -负责百度全网服务器底层硬件监控、诊断和运行优化组件的开发和优化 -分析服务器各类硬件的运行数据,构建服务器故障诊断、分级、预测、修复一体化方案