米哈游【实习】视频大模型数据工程师
任职要求
1、本科以上学历,英语六级以上; 2、熟练掌握python,SQL等工具进行数据分析与清洗,熟练使用linux操作系统; 3、具有数据分析、图像处理,音视频数据管理等至少一个领域的开发经验; 加分项 1、具有图像生成或视频生成大模型等领域的数据管理项目经验者优先; 2、具备强烈的自我驱动力、优秀的团队协作能力,以及对前沿技术挑战的极大热情;
工作职责
1负责视频生成强化学习的数据处理管线搭建、日常运营、与优化。通过与研发,数据湖后端紧密合作,确定视频数据管线和流程,建立关键工具,确保日常运营的高质量和高效数据生成和管理。 核心职责: 1、从数据需求出发,完成数据处理管线的方案设计,规范化数据处理流程; 2、开发与优化脚本工具实现管线处理的关键步骤,提升数据处理效率,; 3、进行日常运营,维护数据管线,把控数据的质量,保证各版本数据的高质量交付; 4、分析数据分布,优化数据采样收集流程,持续提升数据交付质量;
职位描述: 1、参与视频大模型的数据准备、数据清洗、数据实验等工作,构建高质量的视频数据集; 2、参与建设对标业内前沿的视频训练数据集,并在此基础上进一步提升数据质量和多样性; 3、参与构建高质量视频数据产出的Pipeline,包括视频数据质量、Pipeline的优化等;
1、数据特征算法方案制定与效果优化:针对不同模态、多种类目的数据,设计自动化筛选方案;对多模态数据涉及的前沿特征算法(如物体跟踪、ID 重识别、音频分离)进行场景化效果优化。与算法工程师协作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 3、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议,确保训练数据覆盖目标场景并满足多样性需求,最终通过数据驱动方法优化视频生成大模型效果。
-参与大模型数据策略与数据迭代(文本/多模态/代码),负责大规模数据构建与合成,支撑预训练/对齐效果 -协助多模态、代码与工具调用数据的构建,进行包括分布式的清洗、合成、近重复/噪声检测与去重,建立难例库与反馈闭环,持续提升数据质量与密度 -参与数据质量评估与筛选算法的实现:低质过滤,质量评分、LLM判别与复核等;针对代码与工具调用场景,引入编译/单测/沙箱执行/参数一致性校验 -支持对齐与偏好学习数据,配合消融实验及评测指标分析,输出采样/准入/退场/权重等数据策略并推动落地
ByteIntern:面向2026届毕业生(2025年9月-2026年8月期间毕业),为符合岗位要求的同学提供转正机会。 团队介绍:抖音研发团队,主要负责抖音短视频的业务和技术研发、公司全部产品的内容安全业务。截至2020年8月,抖音日活用户超6亿,并继续保持高速增长。未来一年,抖音将更多关注对创作者和社会的价值。团队汇聚各种背景的顶尖人才,在更大体量更为复杂的业务场景中不断提升,在项目0-1的过程中影响上亿用户。期待你的加入! 1、负责抖音运营与生态团队大模型相关的业务开发,包含创作者服务(流量、培优、创作灵感等)以及对内的抖音规模化运营能力建设,快速搭建应用并在业务中落地,持续优化产品体验、稳定性; 2、与产品经理、数据分析师、算法、数据工程师等角色紧密合作,理解业务需求,制定技术方案,并推动项目的落地和优化; 3、持续探索在各种场景下,利用AI能力增强产品体验,提升工程效率。