字节跳动多模态大模型数据工程师
任职要求
1、熟悉至少一种编程语言,如Go、Python、Java等; 2、对大数据技术有深入的理解加分,熟练掌握如Spark、Flink、Kafka、Hive、HDFS等工具加分;…
工作职责
1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。
1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。

1. 根据算法需求,调研相关数据处理算法,并制定相关处理方案。 2. 深入理解大模型研发流程,与算法工程师紧密配合,持续迭代和优化数据处理链路,提高数据产出的质量和效率
1.面向世界模型(World Model)场景下多模态大模型的预训练与后训练数据需求,围绕2D视频数据与3D场景数据构建自动化、高效率的数据处理管线,覆盖数据采集、清洗、结构化、合成、质量评估与版本管理等环节,持续优化系统性能,保障管线的稳定性、可扩展性与可复用性; 2.设计并开发数据处理工具与自动化脚本,提升数据清洗、标注与合成效率,支撑数据规模化生产与迭代; 3.建立数据质量评估与自动化检测体系; 4.与算法研究团队深度协作,理解世界模型在视频预测、场景建模与交互推理等任务中的训练需求,制定针对性的多模态数据策略,持续挖掘高价值数据资源,推动以数据为核心驱动的模型能力演进与迭代。
1.面向世界模型(World Model)场景下多模态大模型的预训练与后训练数据需求,围绕2D视频数据与3D场景数据构建自动化、高效率的数据处理管线,覆盖数据采集、清洗、结构化、合成、质量评估与版本管理等环节,持续优化系统性能,保障管线的稳定性、可扩展性与可复用性; 2.设计并开发数据处理工具与自动化脚本,提升数据清洗、标注与合成效率,支撑数据规模化生产与迭代; 3.建立数据质量评估与自动化检测体系; 4.与算法研究团队深度协作,理解世界模型在视频预测、场景建模与交互推理等任务中的训练需求,制定针对性的多模态数据策略,持续挖掘高价值数据资源,推动以数据为核心驱动的模型能力演进与迭代。