字节跳动大数据工程师(数据平台方向)-Data
任职要求
1、熟悉互联网产品和服务的开发过程,熟悉后端技术架构,具备良好的系统设计能力; 2、善于沟通,对业务敏感,能快速理解业务背景,具备优秀的技术与业务结合能力; 3、熟悉Kafka/Flink/Redis/Clickhouse/ES等实时计算引擎的开发和使用优先; 4、有大规模实时数据平台落地经验者优先; 5、有图数据库和大规模图计算经验者优先。
工作职责
1、负责字节跳动相关产品线(抖音、今日头条等)风控方向的数据产品开发; 2、负责数据质量,数据安全,元数据的监控,整合; 3、面向超大规模数据问题,每天处理千亿增量的用户数据; 4、设计和实现高并发关键数据服务,用数据衡量产品并驱动产品演进。
1、结合大模型(LLM)能力,探索并实现AI 赋能的数据开发新模式,如代码智能补全、智能调试、SQL生成优化等; 2、设计并优化高并发、高可用的后端架构,支持大规模数据开发用户的使用场景; 3、研究并落地业界大模型在数据开发领域的最佳实践,包括但不限于RAG(检索增强生成)、智能Agent、代码生成等; 4、负责相关API设计、模型调用接口开发及性能优化,确保LLM相关功能的高效集成; 5、参与团队的技术决策,推动架构优化,提升系统的稳定性、可扩展性和易维护性; 6、关注业界大数据开发工具和AI赋能技术的最新进展,推动相关技术在团队内的落地与实践。
团队介绍: 小鹏汽车自动驾驶的大数据方向,负责所有自动驾驶数据的云端处理,为自动驾驶业务提供高性能,高质量的数据加工,保证整个数据生产的稳定性,及时性,高可用。 1. 负责自动驾驶大数据多模态(如视频、图像、雷达信号等)湖仓平台的架构设计、开发与建设,包括数据处理、资源调度、算子管理、部署服务等;负责数据采集、清洗、转换和加载(ETL)流程的开发,处理多源异构数据 2. 基于大数据多模态湖仓平台,协助客户处理生产业务中的海量数据,解决疑难问题,支持百亿级自动驾驶感知和全栈数据的快速定位和分析,赋能上层业务发展。 3. 协助设计和优化数据仓库模型,参与数据治理工作(如数据质量核查、元数据管理等) 4. 负责自动驾驶离线和实时数据仓库的构建和性能优化;负责车端信号数据仓库体系和数据指标体系的架构设计与开发,为算法和数据闭环提供框架支持; 5. 调优分布式计算引擎(Spark/Flink/Presto)及存储系统(HDFS/OSS),构建OLAP引擎(Doris/StarRocks),解决海量数据场景下的资源瓶颈。 6. 跟踪Iceberg、Paimon、Flink、Spark、Lance等开源技术演进,主导关键组件二次开发或源码级优化;负责前沿技术的跟踪研究,工具链的选型测试,解决、攻克数据平台的核心技术难题。 7. 建立监控和反馈指标,持续优化改进产品的架构及性能,保证PB级数仓的数据质量和平台稳定性。

1、负责大数据产品开发和维护,包含数据研发(类似dataworks)、数据服务、数据资产(标签画像)、数据应用(olap自助分析、BI报表)等 2、负责根据业务需求进行系统设计和模块分解 3、负责参与核心代码的设计和开发
1.面向大模型预训练、后训练数据管线,设计并实现高效的数据处理平台。单管线上,通过算子编排形成数据计算、存储、一体化符合大模型训练的管线平台,平台级别上,通过存储、计算优化实现平台产能提升; 2.计算方向,提升平台级别计算效率,通过海量数据、任务、资源、合理化系统设计,抽象,对各个可编排算子的合并、拆分,达成易用性和计算性能平衡。对热点的算子,考虑单点优化以及公共服务的方式达到平台级性能提升; 3.存储方向,构建服务于整个预训练和后训练的dataset,优化海量存储管理与访问方案(对象存储分层、冷热分层、缓存策略、数据压缩与列式格式优化、读写并发控制、成本与生命周期管理); 4.编写技术文档、最佳实践与性能评估报告,推动能力沉淀与工具链升级。