字节跳动大数据工程师(数据平台方向)-Data
任职要求
1、熟悉互联网产品和服务的开发过程,熟悉后端技术架构,具备良好的系统设计能力; 2、善于沟通,对业务敏感,能快速理解业务背景,具备优秀的技术与业务结合能力; 3、熟悉Ka…
工作职责
1、负责字节跳动相关产品线(抖音、今日头条等)风控方向的数据产品开发; 2、负责数据质量,数据安全,元数据的监控,整合; 3、面向超大规模数据问题,每天处理千亿增量的用户数据; 4、设计和实现高并发关键数据服务,用数据衡量产品并驱动产品演进。
1、结合大模型(LLM)能力,探索并实现AI 赋能的数据开发新模式,如代码智能补全、智能调试、SQL生成优化等; 2、设计并优化高并发、高可用的后端架构,支持大规模数据开发用户的使用场景; 3、研究并落地业界大模型在数据开发领域的最佳实践,包括但不限于RAG(检索增强生成)、智能Agent、代码生成等; 4、负责相关API设计、模型调用接口开发及性能优化,确保LLM相关功能的高效集成; 5、参与团队的技术决策,推动架构优化,提升系统的稳定性、可扩展性和易维护性; 6、关注业界大数据开发工具和AI赋能技术的最新进展,推动相关技术在团队内的落地与实践。
1. 负责公司企业级数据开发平台产品的规划、设计和落地,构建高效、智能、易用的一站式数据开发与治理体系,全面提升数据研发效能与数据质量。 2. 深度参与数据开发全生命周期(DataOps)的流程优化与产品化,构建覆盖数据接入、数据处理、数据调度、数据服务及全链路监控等核心功能的数据平台。 3. 探索并落地基于AI(特别是大模型)的智能数据开发方案,通过AI技术提升数据建模、ETL开发(AI Coding)、SQL生成与优化、智能问答与诊断等环节的自动化与智能化水平。 4. 与数据工程师、数据分析师及业务团队紧密合作,深刻理解不同角色的数据开发与消费需求,持续优化产品体验,提升平台易用性与用户满意度。
团队介绍: 小鹏汽车自动驾驶的大数据方向,负责所有自动驾驶数据的云端处理,为自动驾驶业务提供高性能,高质量的数据加工,保证整个数据生产的稳定性,及时性,高可用。 1. 负责自动驾驶大数据多模态(如视频、图像、雷达信号等)湖仓平台的架构设计、开发与建设,包括数据处理、资源调度、算子管理、部署服务等;负责数据采集、清洗、转换和加载(ETL)流程的开发,处理多源异构数据 2. 基于大数据多模态湖仓平台,协助客户处理生产业务中的海量数据,解决疑难问题,支持百亿级自动驾驶感知和全栈数据的快速定位和分析,赋能上层业务发展。 3. 协助设计和优化数据仓库模型,参与数据治理工作(如数据质量核查、元数据管理等) 4. 负责自动驾驶离线和实时数据仓库的构建和性能优化;负责车端信号数据仓库体系和数据指标体系的架构设计与开发,为算法和数据闭环提供框架支持; 5. 调优分布式计算引擎(Spark/Flink/Presto)及存储系统(HDFS/OSS),构建OLAP引擎(Doris/StarRocks),解决海量数据场景下的资源瓶颈。 6. 跟踪Iceberg、Paimon、Flink、Spark、Lance等开源技术演进,主导关键组件二次开发或源码级优化;负责前沿技术的跟踪研究,工具链的选型测试,解决、攻克数据平台的核心技术难题。 7. 建立监控和反馈指标,持续优化改进产品的架构及性能,保证PB级数仓的数据质量和平台稳定性。
