腾讯腾讯游戏-多模态世界模型数据工程师
任职要求
1.人工智能、计算机科学、数学或相关专业,本科及以上学历; 2.具备大模型训练数据的构建与管理经验,熟悉视频数据或三维数据的处理流程,了解数据质量评估方法与统计分析手段…
工作职责
1.面向世界模型(World Model)场景下多模态大模型的预训练与后训练数据需求,围绕2D视频数据与3D场景数据构建自动化、高效率的数据处理管线,覆盖数据采集、清洗、结构化、合成、质量评估与版本管理等环节,持续优化系统性能,保障管线的稳定性、可扩展性与可复用性; 2.设计并开发数据处理工具与自动化脚本,提升数据清洗、标注与合成效率,支撑数据规模化生产与迭代; 3.建立数据质量评估与自动化检测体系; 4.与算法研究团队深度协作,理解世界模型在视频预测、场景建模与交互推理等任务中的训练需求,制定针对性的多模态数据策略,持续挖掘高价值数据资源,推动以数据为核心驱动的模型能力演进与迭代。
1.面向世界模型(World Model)场景下多模态大模型的预训练与后训练数据需求,围绕2D视频数据与3D场景数据构建自动化、高效率的数据处理管线,覆盖数据采集、清洗、结构化、合成、质量评估与版本管理等环节,持续优化系统性能,保障管线的稳定性、可扩展性与可复用性; 2.设计并开发数据处理工具与自动化脚本,提升数据清洗、标注与合成效率,支撑数据规模化生产与迭代; 3.建立数据质量评估与自动化检测体系; 4.与算法研究团队深度协作,理解世界模型在视频预测、场景建模与交互推理等任务中的训练需求,制定针对性的多模态数据策略,持续挖掘高价值数据资源,推动以数据为核心驱动的模型能力演进与迭代。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、参与设计并实现高性能、可扩展、分布式大数据处理平台,通过数据驱动模型生产,支撑字节跳动智能语音相关业务算法生产与高效迭代; 2、与算法工程师密切配合,理解深度学习模型研发流程,负责/参与前沿模型研究中数据解决方案的设计、开发和维护; 3、持续提升平台数据生产效率、易用性、降低算法使用成本,探索业界前沿的多模态数据处理相关技术,设计并实现到数据平台中。
团队介绍:字节跳动 Seed 团队成立于 2023 年,致力于寻找通用智能的新方法,追求智能上限。团队研究方向涵盖 LLM、语音、视觉、世界模型、基础架构、AI Infra、下一代 AI 交互等,在中国、新加坡、美国等地设有实验室和岗位。 Seed 团队在 AI 领域拥有长期愿景与决心,坚持深耕基础,期望成为世界一流的 AI 研究团队,为科技和社会发展作出贡献。目前团队已推出业界领先的通用大模型以及前沿的多模态能力,支持豆包、扣子、即梦等超过 50 个应用场景。 1、负责千亿级别海量多模态数据的管理,包括视频、图像数据的存储,数据处理,数据安全,数据校验等等; 2、负责多模态数据链路基建的研发,追求极致的处理速度,达到百万QPS的处理能力; 3、大规模数据的分析以及可视化的建设,从数据中挖掘出影响模型训练结果的可能因素,从而帮助模型训练改进; 4、与算法同学深度合作,加速训练数据的获取,提升数据质量,支持模型结果数据评测,打造数据闭环; 5、支持多模态数据分析和数据可视化工作,降低数据的获取门槛,提升数据的使用价值。