logo of bytedance

字节跳动多模态大模型数据工程师

社招全职A123594地点:北京状态:招聘

任职要求


1、熟悉至少一种编程语言,如GoPythonJava等;
2、对大数据技术有深入的理解加分,熟练掌握如Spark、Flink、Kafka、Hive、HDFS等工具加分;…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容;
2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限;
3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作;
4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。
包括英文材料
Go+
Python+
Java+
大数据+
Spark+
还有更多 •••
相关职位

logo of bytedance
社招A119200

1、设计和开发大规模预训练数据处理链路,为基座模型预训练提供稳定、可靠的高质量数据处理能力,包括数据寻源、数据抓取/采集、数据解析(OCR、图片、网页)等工作内容; 2、设计和开发服务大模型预训练的数据平台,管理数据的元信息、血缘、存储治理等数据全生命周期要素;提供预训练数据的可视化、可观测能力;探索数据实验、数据发版的工程上限; 3、针对LLM、VLM等模型构建数据合成方案和框架,支持数据Scale等工作; 4、根据大模型训练数据特点,抽象并开发高效、可靠的数据加工框架,提升所有大模型算法工程师处理数据的工程效率。

更新于 2025-12-22上海
logo of soul
社招

1. 根据算法需求,调研相关数据处理算法,并制定相关处理方案。 2. 深入理解大模型研发流程,与算法工程师紧密配合,持续迭代和优化数据处理链路,提高数据产出的质量和效率

更新于 2025-06-24上海|北京
logo of tencent
社招2年以上公共技术

1.面向世界模型(World Model)场景下多模态大模型的预训练与后训练数据需求,围绕2D视频数据与3D场景数据构建自动化、高效率的数据处理管线,覆盖数据采集、清洗、结构化、合成、质量评估与版本管理等环节,持续优化系统性能,保障管线的稳定性、可扩展性与可复用性; 2.设计并开发数据处理工具与自动化脚本,提升数据清洗、标注与合成效率,支撑数据规模化生产与迭代; 3.建立数据质量评估与自动化检测体系; 4.与算法研究团队深度协作,理解世界模型在视频预测、场景建模与交互推理等任务中的训练需求,制定针对性的多模态数据策略,持续挖掘高价值数据资源,推动以数据为核心驱动的模型能力演进与迭代。

更新于 2026-01-08上海
logo of tencent
社招2年以上公共技术

1.面向世界模型(World Model)场景下多模态大模型的预训练与后训练数据需求,围绕2D视频数据与3D场景数据构建自动化、高效率的数据处理管线,覆盖数据采集、清洗、结构化、合成、质量评估与版本管理等环节,持续优化系统性能,保障管线的稳定性、可扩展性与可复用性; 2.设计并开发数据处理工具与自动化脚本,提升数据清洗、标注与合成效率,支撑数据规模化生产与迭代; 3.建立数据质量评估与自动化检测体系; 4.与算法研究团队深度协作,理解世界模型在视频预测、场景建模与交互推理等任务中的训练需求,制定针对性的多模态数据策略,持续挖掘高价值数据资源,推动以数据为核心驱动的模型能力演进与迭代。

更新于 2026-01-08深圳