logo of kuaishou

快手数据挖掘工程师 —【可灵大模型团队】

社招全职D4124地点:北京状态:招聘

任职要求


1、统计学、数学、计算机或相关专业硕士及以上学历,具备扎实的数据分析与建模基础;
2、熟练使用PythonSQL等分析工具,掌握常用数据分析与可视化工具(如Pandas、Tableau、Matplotlib等);
3、有深度学习数据处理、特征提取经验,对数据分布分析有深入理解。熟悉机…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、数据pipeline建设:负责视频生成大模型的训练数据构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型的持续迭代;
2、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供数据分布的可视化报告及改进建议,确保模型训练数据覆盖目标场景和多样性需求;
3、用户数据分析:分析用户交互数据,评估视频生成效果与用户满意度,提取用户反馈中的数据优化方向。构建用户行为分析模型,探索用户需求变化并为模型优化提供参考;
4、优化模型生成效果:构建数据飞轮。通过数据驱动的方法优化视频生成大模型效果,结合A/B测试等手段验证调整效果。与算法工程师合作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力。
包括英文材料
学历+
数据分析+
Python+
SQL+
Pandas+
还有更多 •••
相关职位

logo of kuaishou
社招D1915

负责可灵AI的多源数据,线上用户反馈数据采集,挖掘和分析。通过数据挖掘、统计分析和可视化工具,完善可灵AI数据闭环链路,为可灵AI的数据侧提供战略决策和业务优化提供数据支持。 1、数据pipeline构建:负责视频生成大模型的训练数据构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型的持续迭代; 2、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供数据分布的可视化报告及改进建议,确保模型训练数据覆盖目标场景和多样性需求; 3、用户数据分析:分析用户交互数据,评估视频生成效果与用户满意度,提取用户反馈中的数据优化方向。构建用户行为分析模型,探索用户需求变化并为模型优化提供参考; 4、优化模型生成效果:构建数据飞轮。通过数据驱动的方法优化视频生成大模型效果,结合A/B测试等手段验证调整效果。与算法工程师合作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力。

更新于 2025-07-15北京
logo of kuaishou
社招3-5年D14604

1、数据效能研究(Data Efficiency):基于多模态大模型训练过程,分析不同模态数据的有效性、信息增益与贡献度;参与数据选择、数据蒸馏、难例挖掘等前沿技术探索,提升训练效率与模型表现; 2、数据–模型协同设计(Co-Design):与模型团队协作,从训练曲线、梯度信号与分布特征中反推数据质量,研究分阶段(预训练/SFT/对齐)数据策略,设计高效的数据结构与采样机制; 3、高质量数据构建(Data Quality Engineering):参与多模态数据 pipeline,包括自动标注、Caption 生成、数据去噪与一致性检查;探索弱监督、合成数据与模型 in-the-loop 的高质量数据生产方式; 4、多模态数据分析(Multimodal Analytics):对训练数据进行覆盖度、偏差与难度分析,构建可视化与指标体系,为模型能力诊断与数据重构提供依据。

更新于 2025-12-02北京
logo of kuaishou
社招3-5年D4124

1、数据特征算法方案制定与效果优化:针对不同模态、多种类目的数据,设计自动化筛选方案;对多模态数据涉及的前沿特征算法(如物体跟踪、ID 重识别、音频分离)进行场景化效果优化。与算法工程师协作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 3、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议,确保训练数据覆盖目标场景并满足多样性需求,最终通过数据驱动方法优化视频生成大模型效果。

更新于 2025-09-09北京
logo of kuaishou
社招5-10年D4124

1、负责可灵AI数据侧从模型效果出发,对各种数据源中收集、处理和分析数据,以提取有价值的信息、洞察力和趋势,以支持数据驱动的决策过程; -模型分析和评测:分析数据对模型带来的效果,通过多角度的数据分析验证数据的模型下效果; -评测能力建设和结果呈现:建设系统化的数据分析的平台和工具,完善AI模型分析的链路和机制;按时按量输出高质量的数据分析和反馈报告,支撑数据决策; -质量改进和文档管理: 参与需求评审和设计评审,提前发现潜在问题,提供质量改进建议;编写和维护分析相关文档,如分析报告、模型说明等。 2、负责可灵AI数据平台的质量保证工作,确保平台的功能、性能和稳定性达到预期标准。通过测试计划制定、执行和优化,提升平台的整体质量和用户体验; -测试计划与设计:根据AI数据平台的需求和技术文档,制定详细的测试计划和测试用例;设计功能测试、性能测试、兼容性测试等多种测试方案; -测试执行和缺陷管理:设计数据平台侧通用测试用例,设计并执行自动化的手动测试和自动化测试,确保平台功能符合预期;发现并报告平台及相关软件的缺陷,跟踪问题的修复进度; -质量改进和文档管理:参与需求评审和设计评审,提前发现潜在问题;提供质量改进建议,优化测试流程和工具;编写和维护测试相关文档,如测试计划、测试报告等。

更新于 2025-08-08北京