
同程旅行系统开发工程师-数据中台
任职要求
1、计算机或相关专业,本科以上学历,至少3年 B/S 实际项目经验; 2、参加过大型项目开发,有SaaS,PaaS,用户中心等系统开发经验的优先; 3、掌握Java基础,熟悉常用类库,熟悉Spring、Mybatis、Dubbo等主流框架; 4、理解java中较为高级的特性,如反射,动态代理,JVM,内存模型,多线程等,并有实战经验。理解解设计模式并熟练使用,对遇到的问题,能够快速分析出问题的原因; 5、理解java分布式架构,微服务架构,了解其与集中式架构的区别,并能保证分布式代码质量。熟练使用各个中间件如nginx,redis,mq,zookeeper等等,并了解其工作原理和使用场景; 6、有ES、HBase,OLAP等数据库开发经验,有较强的 SQL 编写能力; 7、对技术有强烈的兴趣,具备技术前瞻性,喜欢钻研,具有良好的学习能力和技术实现能力,工作主动性强,有责任心,注重团队合作,愿意从事大数据系统研发工作领域。
工作职责
1、熟悉大数据开发套件相关系统的设计; 2、负责调度系统、分析平台、数据资产等项目技术解决方案设计; 3、负责程序开发工作,有良好的编码习惯; 4、为后端技术改进、性能优化、技术选型提供解决方案。
1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。
1、数据资产管理平台开发与治理 构建企业级数据资产管理平台,构建数据清晰的血缘,支持高效溯源。 建立元数据管理、数据血缘追踪、质量监控与安全合规体系。 2、知识图谱构建与优化 从结构化/非结构化数据中提取实体与关系,构建行业知识图谱(如客户关系图谱)。 通过规则引擎、NLP模型持续优化图谱质量。 3、AI助理系统开发 集成大语言模型(LLM)与垂直知识库,开发智能问答、自然语言查询及自动化报表功能。 设计API/Web接口,支持业务用户通过自然语言调用数据服务(如“查询某产品的销售趋势”)。 搭建模型训练与部署框架,实现AI能力快速迭代。 4、数据安全合规与质量管理 建立数据质量指标(完整性、一致性、准确性),开发自动化检测与修复工具。 实现异常数据实时告警(如延迟、权限越权),并通过邮件/SMS/企业微信通知责任人。 5、平台性能与稳定性保障 优化Spark/Flink任务性能,提升高并发场景下的平台稳定性。 监控系统运行状态,设计容灾机制与自动化运维工具,降低故障率。
团队介绍:数据平台是字节跳动数据中台部门,为公司多业务线(包括抖音、电商、直播和生活服务等)提供一站式大数据解决方案,涵盖数据的生产、清洗、传输、建模、分析等全流程链路,提供数据开发、实验评估、画像标签、增强分析等多元场景解决能力。同时,数据平台部门也致力于把字节跳动积累沉淀的数据中台解决方案做商业化输出,让更多行业能够应用我们的产品能力构建自己的数据中台。在火山引擎上,我们提供了营销增长套件,数据中台等相关产品解决方案,为泛互联网、金融、汽车、新零售等行业提供了行业解决方案。 1、负责分布式数据库(云原生架构)设计实现,打造业界领先的数据库系统; 2、深入底层系统与引擎,解决大规模生产环境集群可用性和性能优化问题; 3、理解业务/云原生架构,从场景出发,从软硬一体设计出发,打造极致系统; 4、跟踪数据库前沿技术,挖掘/落地新技术的机会,包括新硬件,智能优化器,湖仓一体等; 5、探索和落地AI/LLM与数据库的融合方向,如多模态数据数据分析,AI驱动的数据库运维自动化,基于AI Agent的智能助手等。
团队介绍:数据平台是字节跳动数据中台部门,为公司多业务线(包括抖音、电商、直播和生活服务等)提供一站式大数据解决方案,涵盖数据的生产、清洗、传输、建模、分析等全流程链路,提供数据开发、实验评估、画像标签、增强分析等多元场景解决能力。同时,数据平台部门也致力于把字节跳动积累沉淀的数据中台解决方案做商业化输出,让更多行业能够应用我们的产品能力构建自己的数据中台。在火山引擎上,我们提供了营销增长套件,数据中台等相关产品解决方案,为泛互联网、金融、汽车、新零售等行业提供了行业解决方案。 1、打造业界PB级OLAP引擎,支撑字节跳动主要产品线(如抖音、今日头条)的ETL、湖仓分析场景等; 2、参与以Spark、Doris、Presto、Ray、Lance等为代表的大数据引擎内核优化; 3、打造基于高并发大流量业务场景的大数据查询服务、任务调度系统、异构数据湖统一元数据服务及权限管理服务的设计和研发; 4、参与字节跳动数据引擎的架构设计、业务场景支持、性能优化与降本、稳定性提升。