logo of mihoyo

米哈游【实习】视频大模型数据工程师

实习兼职程序&技术类地点:上海状态:招聘

任职要求


1、本科以上学历,英语六级以上;
2、熟练掌握pythonSQL等工具进行数据分析与清洗,熟练使用linux操作系统;
3、具有数据分析、图像处理,音视频数据管理等至少一…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1负责视频生成强化学习的数据处理管线搭建、日常运营、与优化。通过与研发,数据湖后端紧密合作,确定视频数据管线和流程,建立关键工具,确保日常运营的高质量和高效数据生成和管理。

核心职责:
1、从数据需求出发,完成数据处理管线的方案设计,规范化数据处理流程;
2、开发与优化脚本工具实现管线处理的关键步骤,提升数据处理效率,;
3、进行日常运营,维护数据管线,把控数据的质量,保证各版本数据的高质量交付;
4、分析数据分布,优化数据采样收集流程,持续提升数据交付质量;
包括英文材料
学历+
Python+
SQL+
还有更多 •••
相关职位

logo of mihoyo
校招程序&技术类

职位描述: 1、参与视频大模型的数据准备、数据清洗、数据实验等工作,构建高质量的视频数据集; 2、参与建设对标业内前沿的视频训练数据集,并在此基础上进一步提升数据质量和多样性; 3、参与构建高质量视频数据产出的Pipeline,包括视频数据质量、Pipeline的优化等;

上海
logo of kuaishou
实习J1001

1、数据特征算法方案制定与效果优化:针对不同模态、多种类目的数据,设计自动化筛选方案;对多模态数据涉及的前沿特征算法(如物体跟踪、ID 重识别、音频分离)进行场景化效果优化。与算法工程师协作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 3、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议,确保训练数据覆盖目标场景并满足多样性需求,最终通过数据驱动方法优化视频生成大模型效果。

更新于 2025-05-08北京
logo of quark
实习日常实习生

我们是谁: -事业群简介:我们是阿里智能信息事业群,专注于千问APP、夸克APP、AI眼镜等AI to C的业务,为2亿用户群体提供AI服务,你或你身边的小伙伴中可能就是我们的用户。我们是一支致力于在AI赛道长期发展、创新务实的团队,欢迎每一位有想法、对AI有热情的小伙伴和我们一起参与这个令人激动的过程。 -团队简介:我们是“千问相机”背后的多模搜索&问答算法团队,负责构建面向千问APP、夸克APP、AI眼镜等产品的统一多模态理解、搜索、问答技术体系,我们基于百亿级图文/视频库及海量用户真实场景需求,攻克多模态对齐与检索难题,探索大模型与搜索的深度融合,支撑全网搜索、智能拍搜、多模态RAG等关键场景。团队技术氛围浓厚,工作氛围开放包容,加入我们,与顶尖工程师共同成长! ⭐️ 你会参与到: 1.与算法工程师携手深入探索大模型的底层原理,能够更好地理解数据与模型之间的关系,为模型训练提供更具针对性的标注策略,加速模型的优化与迭代。 2.深度参与数据与模型的交互过程,理解不同领域知识之间的关联和相互影响,从而拓展自己的知识边界,培养跨学科的思维能力,能够从多个角度理解数据、理解知识、理解智能。 3.通过对数据作为人工智能核心驱动因素之一的深刻理解和实战参与,进一步提升快速学习的能力、创新思维激发,对个人未来的职业发展中提供更多的可能性,进一步提升未来在职场的竞争力。

更新于 2025-12-04杭州
logo of baidu
实习ACG

- 参与大模型数据策略与数据迭代(文本/多模态/代码),负责大规模数据构建与合成,支撑预训练/对齐效果 - 协助多模态、代码与工具调用数据的构建,进行包括分布式的清洗、合成、近重复/噪声检测与去重,建立难例库与反馈闭环,持续提升数据质量与密度 - 参与数据质量评估与筛选算法的实现:低质过滤,质量评分、LLM判别与复核等;针对代码与工具调用场景,引入编译/单测/沙箱执行/参数一致性校验 - 支持对齐与偏好学习数据,配合消融实验及评测指标分析,输出采样/准入/退场/权重等数据策略并推动落地

更新于 2025-12-05北京