字节跳动算法工程师-数据中台
任职要求
1、熟练掌握以下算法方向的一部分:NLP、CV、排序预估,具有大模型探索经验优先; 2、熟悉大数据计算工具,如HiveSQL、Spark等;熟悉神经网络框架,如Tensorflow、Pytorch等; 3、熟练的数据分析能…
工作职责
1、参与数据中台的数据体系建设,负责面向业务的数据挖掘及算法持续迭代,支撑相关业务快速发展; 2、通过数据挖掘和机器学习,预测关键元素在流量/转化的表现,提升数据发现效率,优化流量分发; 3、探索大模型在数据中台的落地应用,包括CV、图文结合等复杂领域,提升数据价值; 4、参与业务应用相关的数据标签探索和开发,以及对应数据模型设计、主题梳理、分层体系构建。
团队介绍:数据平台是字节跳动数据中台部门,为公司多业务线(包括抖音、电商、直播和生活服务等)提供一站式大数据解决方案,涵盖数据的生产、清洗、传输、建模、分析等全流程链路,提供数据开发、实验评估、画像标签、增强分析等多元场景解决能力。同时,数据平台部门也致力于把字节跳动积累沉淀的数据中台解决方案做商业化输出,让更多行业能够应用我们的产品能力构建自己的数据中台。在火山引擎上,我们提供了营销增长套件,数据中台等相关产品解决方案,为泛互联网、金融、汽车、新零售等行业提供了行业解决方案。 1、负责多模态数据处理的算法建设; 2、基于豆包家族模型、开源模型或垂类领域模型研发多种模态数据处理的算子,使其性能和效果达到SOTA水平。
1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。
1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。