logo of tme

腾讯音乐企业IT工程师-大数据平台开发方向(腾音)

社招全职3年以上子公司-专业类地点:深圳状态:招聘

任职要求


1、计算机及相关专业本科及以上学历,3年以上大数据领域开发工作经验;
2、熟悉hadoopsparkhiveclickhousestarrocksspringboot等技术栈,具备一定的调优经验;
3、熟悉java开发语言;
4、有数据治理类项目开发经验者优先考虑;
5、热爱大数据行业,具有强烈的技术自驱力,对技术有热忱、有探索精神,认同大数据驱动业务发展理念,对数据价值变现具有深度热情;
6、具备良好的理解力、逻辑思维能力和沟通能力,坚持以用户为中心;对工作富有责任心。

工作职责


1、负责数据中台产品的设计、开发工作;包括但不限于:数据存储、数据同步、数据计算、数据资产、数据质量安全等平台开发工作;基于数据中台对业务系统赋能,参与各业务项目的具体落地工作;
2、参与数据相关项目的架构设计、需求评审、技术攻坚及优化;
3、参与建立数据领域:代码开发、业务流程、质量安全相关标准规范,并推广实施;
4、跨团队/部门协作,系统分析并解决各类大数据平台相关的运行或数据问题;参与数据平台产品的日常运维和技术支持工作。
包括英文材料
学历+
大数据+
Hadoop+
Spark+
Hive+
ClickHouse+
StarRocks+
Spring Boot+
Java+
数据治理+
相关职位

logo of tme
社招2年以上子公司-专业类

1、 深入理解业务,根据业务进行数据建模并实施建设业务数仓; 2、 参与数据相关项目的架构设计、需求评审、技术攻坚及优化; 3、 负责企业级大数据平台的研发工作;包括数据存储、数据集成、数据开发、数据资产、数据治理、数据展示等; 4、 参与建立数据领域的研发管理、代码开发、质量安全等相关标准规范并推广实施; 5、 跨团队/部门协作,系统分析并解决各类大数据平台相关的运行或数据问题;参与数据平台产品的日常运维和技术支持工作。

更新于 2025-08-08
logo of tme
社招3年以上子公司-专业类

1、参与数据中台相关产品(如数据集成、数据开发、数据资产、数据质量、数据展示、数据服务等)的功能设计、开发工作; 2、参与数据平台相关产品的日常运维、技术支持等工作,协助分析和解决用户在使用平台过程中遇到的问题; 3、与团队内部及跨部门同事协作,收集数据中台各项运营指标、用户需求等,保障系统稳定,优化系统使用体验;

更新于 2025-09-25
logo of vivo
实习

1、系统及云平台管理:负责vivo全球数据中心、云平台的上万台服务器系统的建设及管理工作,为vivo企业级业务保驾护航; 2、存储备份管理:负责vivo全球数据中心数PB的SAN/NAS存储、分布式存储、对象存储的建设及运维管理,负责vivo企业数据全生命周期管理、全球容灾备份管理; 3、智能运维平台:参与vivo IAAS/PAAS云平台、智能监控运维平台、ITSM、CMDB、容器等各平台的开发建设,利用大数据和人工智能技术手段,持续改善vivo企业用户服务体验,降低公司IT运营成本。 4、数据中心管理:负责vivo全球数据中心基础设施的规划设计、实施运维以及体系标准建设,提升数据中心机房的稳定性及降低能效。

更新于 2025-07-16
logo of thead
社招5年以上技术-芯片

我们正在寻找一位熟悉数据中心建设、服务器部署与高性能网络运维的优秀工程师,加入我们致力于构建*下一代AI算力基础设施的核心团队。 你将参与企业级GPU集群的规划、部署与持续优化,支撑大语言模型(LLM)千亿级参数训练任务的稳定运行。如果你热爱“硬核”系统工程,关注物理层到网络层的极致性能,并希望在AI时代打造真正的“算力底座”,欢迎加入! 你将负责: 1. AI数据中心规划与机房部署 参与新建或改造AI专用机房,完成服务器上架、电源配比、散热方案评估、PDU/UPS/BMC等基础设施配置,确保高密度GPU集群的可靠运行。 2. 大规模GPU集群部署与维护 主导NVIDIA A100/H100等高端GPU服务器的初始化、固件升级、驱动安装与健康监控;建立标准化部署流程(自动化装机、配置管理),提升交付效率。 3. 高性能网络架构支持(RDMA/InfiniBand/RoCE) 配合网络团队完成IB/RoCE网络部署,配置子网管理器(SM)、交换机(如 Mellanox/NVIDIA Quantum-2)、路由策略;保障低延迟、高带宽通信满足AllReduce需求。 4. NCCL通信性能调优与故障排查 协助算法团队分析分布式训练中的通信瓶颈,结合nccl-tests、ibstat、ethtool等工具进行链路诊断;优化GPU拓扑(NVLink/NVSwitch)、NUMA绑定、MTU设置等关键参数。 5. 基础设施监控与自动化运维 搭建硬件健康监控体系(温度、功耗、风扇、ECC错误等),集成Prometheus + Grafana + Alertmanager;编写脚本实现自动巡检、告警响应与故障定位。 6. 跨团队协作支持训练平台稳定运行 与开发、QA团队协同,为大模型训练提供稳定、高效的底层算力环境,快速响应宕机、链路中断、丢包等紧急问题。

更新于 2025-10-09