字节跳动AI数据湖算法工程师-数据平台
任职要求
1、2026届获得本科及以上学历,数学、统计学、计算机科学专业优先; 2、熟练掌握Python、Java、C++、Rust其中一种语言,具备扎实的计算机或算…
工作职责
团队介绍:数据平台是字节跳动数据中台部门,为公司多业务线(包括抖音、电商、直播和生活服务等)提供一站式大数据解决方案,涵盖数据的生产、清洗、传输、建模、分析等全流程链路,提供数据开发、实验评估、画像标签、增强分析等多元场景解决能力。同时,数据平台部门也致力于把字节跳动积累沉淀的数据中台解决方案做商业化输出,让更多行业能够应用我们的产品能力构建自己的数据中台。在火山引擎上,我们提供了营销增长套件,数据中台等相关产品解决方案,为泛互联网、金融、汽车、新零售等行业提供了行业解决方案。 1、负责多模态数据处理的算法建设; 2、基于豆包家族模型、开源模型或垂类领域模型研发多种模态数据处理的算子,使其性能和效果达到SOTA水平。
1,负责电商数据仓库的ETL流程设计、开发与优化,尤其关注招商、营销活动(含大促)等核心业务场景的数据集成,确保数据的准确性、实时性和为业务决策和AI应用提供高质量数据基础。 2,主导电商领域的数据建模工作,构建满足用户画像、商品分析、营销效果评估等业务需求的多维数据模型,支持精细化运营、个性化推荐和智能决策。 3,与电商业务、招商、营销业务和数据科学等组紧密合作,深入理解业务痛点和增长目标,提供创新的数据解决方案,优化数据处理流程,提升数据赋能业务的能力。 4,参与大数据平台的优化和扩展,探索并应用AI技术(如机器学习、自然语言处理等)提升数据处理效率、数据质量和数据洞察能力,例如智能数据清洗、异常检测、特征工程自动化等。 5,编写高质量的代码和技术文档,确保代码的可维护性、可扩展性和可理解性,并积极参与技术分享和知识沉淀。 1,Responsible for the design, development, and optimization of ETL processes for the e-commerce data warehouse, with a focus on core business scenarios such as merchant acquisition, marketing campaigns (including major promotions), ensuring accurate, real-time, and efficient data transmission, and providing high-quality data foundation for business decisions and AI applications. 2,Lead data modeling efforts in the e-commerce domain, building multi-dimensional data models that meet the business needs of user profiling, product analysis, marketing performance evaluation, etc., supporting refined operations, personalized recommendations, and intelligent decision-making. 3,Collaborate closely with e-commerce business, merchant acquisition, marketing, and other teams to deeply understand business pain points and growth objectives, provide innovative data solutions, optimize data processing workflows, and enhance the ability of data to empower business. 4,Participate in the optimization and expansion of big data platforms, explore and apply AI technologies (such as machine learning, natural language processing, etc.) to improve data processing efficiency, data quality, and data insight capabilities, such as intelligent data cleaning, anomaly detection, and automated feature engineering. 5,Produce high-quality code and technical documentation to ensure code maintainability, scalability, and understandability, and actively participate in technical sharing and knowledge accumulation.
1、数据资产管理平台开发与治理 构建企业级数据资产管理平台,构建数据清晰的血缘,支持高效溯源。 建立元数据管理、数据血缘追踪、质量监控与安全合规体系。 2、知识图谱构建与优化 从结构化/非结构化数据中提取实体与关系,构建行业知识图谱(如客户关系图谱)。 通过规则引擎、NLP模型持续优化图谱质量。 3、AI助理系统开发 集成大语言模型(LLM)与垂直知识库,开发智能问答、自然语言查询及自动化报表功能。 设计API/Web接口,支持业务用户通过自然语言调用数据服务(如“查询某产品的销售趋势”)。 搭建模型训练与部署框架,实现AI能力快速迭代。 4、数据安全合规与质量管理 建立数据质量指标(完整性、一致性、准确性),开发自动化检测与修复工具。 实现异常数据实时告警(如延迟、权限越权),并通过邮件/SMS/企业微信通知责任人。 5、平台性能与稳定性保障 优化Spark/Flink任务性能,提升高并发场景下的平台稳定性。 监控系统运行状态,设计容灾机制与自动化运维工具,降低故障率。
1、参与设计与研发快手服务亿级用户的端到端机器学习平台,构建高性能、分布式、可扩展的AI数据计算/存储引擎,通过数据驱动模型生产,支撑包括推荐、广告、搜索、大模型等核心AI算法业务的高效迭代; 2、打造业界领先的AI数据引擎,包括高性能实时/离线分布式计算系统、流批一体化的AI数据湖存储系统、SQL化DSL描述的下一代数据处理平台,为百万核规模、EB级数据的高效计算、存储、迭代提供易用可靠的基础设施; 3、与算法工程师、研究员团队紧密配合,深刻理解端到端的AI模型研发流程,探索业界前沿的Data4AI技术,负责模型研究中数据工程方案的架构设计、实现、持续迭代和稳定性维护。