字节跳动AI数据湖算法工程师-数据平台
任职要求
1、2026届获得本科及以上学历,数学、统计学、计算机科学专业优先; 2、熟练掌握Python、Java、C++、Rust其中一种语言,具备扎实的计算机或算…
工作职责
团队介绍:数据平台是字节跳动数据中台部门,为公司多业务线(包括抖音、电商、直播和生活服务等)提供一站式大数据解决方案,涵盖数据的生产、清洗、传输、建模、分析等全流程链路,提供数据开发、实验评估、画像标签、增强分析等多元场景解决能力。同时,数据平台部门也致力于把字节跳动积累沉淀的数据中台解决方案做商业化输出,让更多行业能够应用我们的产品能力构建自己的数据中台。在火山引擎上,我们提供了营销增长套件,数据中台等相关产品解决方案,为泛互联网、金融、汽车、新零售等行业提供了行业解决方案。 1、负责多模态数据处理的算法建设; 2、基于豆包家族模型、开源模型或垂类领域模型研发多种模态数据处理的算子,使其性能和效果达到SOTA水平。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高性能、可扩展、分布式大数据处理平台,通过数据驱动模型生产,支撑字节跳动智能语音相关业务算法生产与高效迭代; 2、与算法工程师密切配合,理解深度学习模型研发流程,负责/参与前沿模型研究中数据解决方案的设计、开发和维护; 3、持续提升平台数据生产效率、易用性、降低算法使用成本,探索业界前沿的多模态数据处理相关技术,设计并实现到数据平台中。
1,负责电商数据仓库的ETL流程设计、开发与优化,尤其关注招商、营销活动(含大促)等核心业务场景的数据集成,确保数据的准确性、实时性和为业务决策和AI应用提供高质量数据基础。 2,主导电商领域的数据建模工作,构建满足用户画像、商品分析、营销效果评估等业务需求的多维数据模型,支持精细化运营、个性化推荐和智能决策。 3,与电商业务、招商、营销业务和数据科学等组紧密合作,深入理解业务痛点和增长目标,提供创新的数据解决方案,优化数据处理流程,提升数据赋能业务的能力。 4,参与大数据平台的优化和扩展,探索并应用AI技术(如机器学习、自然语言处理等)提升数据处理效率、数据质量和数据洞察能力,例如智能数据清洗、异常检测、特征工程自动化等。 5,编写高质量的代码和技术文档,确保代码的可维护性、可扩展性和可理解性,并积极参与技术分享和知识沉淀。 1,Responsible for the design, development, and optimization of ETL processes for the e-commerce data warehouse, with a focus on core business scenarios such as merchant acquisition, marketing campaigns (including major promotions), ensuring accurate, real-time, and efficient data transmission, and providing high-quality data foundation for business decisions and AI applications. 2,Lead data modeling efforts in the e-commerce domain, building multi-dimensional data models that meet the business needs of user profiling, product analysis, marketing performance evaluation, etc., supporting refined operations, personalized recommendations, and intelligent decision-making. 3,Collaborate closely with e-commerce business, merchant acquisition, marketing, and other teams to deeply understand business pain points and growth objectives, provide innovative data solutions, optimize data processing workflows, and enhance the ability of data to empower business. 4,Participate in the optimization and expansion of big data platforms, explore and apply AI technologies (such as machine learning, natural language processing, etc.) to improve data processing efficiency, data quality, and data insight capabilities, such as intelligent data cleaning, anomaly detection, and automated feature engineering. 5,Produce high-quality code and technical documentation to ensure code maintainability, scalability, and understandability, and actively participate in technical sharing and knowledge accumulation.

1、开发维护实时湖仓引擎(Flink、Paimon),建设平台化能力,攻克在高并发、低延迟、海量数据处理等方面的关键技术难题,保障公司业务稳定高效运行。 2、规划构建一体化的 Data + AI 计算平台,实现数据与 AI 的深度融合,提升数据开发效率和数据价值。 3、结合技术发展趋势与业务需求,主导技术选型及技术路线规划,推动大数据平台能力达到行业领先水平。
团队介绍:数据平台是字节跳动数据中台部门,为公司多业务线(包括抖音、电商、直播和生活服务等)提供一站式大数据解决方案,涵盖数据的生产、清洗、传输、建模、分析等全流程链路,提供数据开发、实验评估、画像标签、增强分析等多元场景解决能力。同时,数据平台部门也致力于把字节跳动积累沉淀的数据中台解决方案做商业化输出,让更多行业能够应用我们的产品能力构建自己的数据中台。在火山引擎上,我们提供了营销增长套件,数据中台等相关产品解决方案,为泛互联网、金融、汽车、新零售等行业提供了行业解决方案。 1、负责分布式数据库(云原生架构)设计实现,打造业界领先的数据库系统; 2、深入底层系统与引擎,解决大规模生产环境集群可用性和性能优化问题; 3、理解业务/云原生架构,从场景出发,从软硬一体设计出发,打造极致系统; 4、跟踪数据库前沿技术,挖掘/落地新技术的机会,包括新硬件,智能优化器,湖仓一体等; 5、探索和落地AI/LLM与数据库的融合方向,如多模态数据数据分析,AI驱动的数据库运维自动化,基于AI Agent的智能助手等。