快手数据挖掘工程师 —【可灵大模型团队】

社招全职3-5年J00112026-03-30地点：北京状态：招聘

扫码手机上打开

任职要求

1、统计学、数学、计算机或相关专业硕士及以上学历，具备扎实的数据分析与建模基础；
2、熟练使用Python、SQL等分析工具，掌握常用数据分析与可视化工具（如Pandas、Tableau、Matplotlib等）；
3、有深度学习数据处理、特征提取经验，对数据分布分析有深入理解。熟悉机…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、数据pipeline建设：负责视频生成大模型的训练数据构建与管理，参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源，设计有效的数据分布策略，支持模型的持续迭代；
2、数据分布分析：对模型训练数据分布进行详细分析，识别数据偏差、不均衡及潜在问题。提供数据分布的可视化报告及改进建议，确保模型训练数据覆盖目标场景和多样性需求；
3、用户数据分析：分析用户交互数据，评估视频生成效果与用户满意度，提取用户反馈中的数据优化方向。构建用户行为分析模型，探索用户需求变化并为模型优化提供参考；
4、优化模型生成效果：构建数据飞轮。通过数据驱动的方法优化视频生成大模型效果，结合A/B测试等手段验证调整效果。与算法工程师合作，制定数据调整与扩展策略，提升模型在真实场景中的生成能力。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

学历+

数据分析+

Python+

SQL+

Pandas+

还有更多 •••

登录查看完整学习资料

相关职位

数据挖掘算法工程师 -【可灵AI】

社招3-5年J0011

1、负责海量多模态数据（视频、图片、音频等）的采集、清洗、去燥、标注与增强，构建高置信度训练数据集，支撑大模型训练与优化； 2、构建领域数据集，优化数据分布与质量，解决数据稀疏性、偏差性等问题； 3、分析模型训练中的数据瓶颈，提出改进方案。

更新于 2026-03-30北京|深圳

数据挖掘&分析算法工程师-【可灵AI】

社招D1915

负责可灵AI的多源数据，线上用户反馈数据采集，挖掘和分析。通过数据挖掘、统计分析和可视化工具，完善可灵AI数据闭环链路，为可灵AI的数据侧提供战略决策和业务优化提供数据支持。 1、数据pipeline构建：负责视频生成大模型的训练数据构建与管理，参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源，设计有效的数据分布策略，支持模型的持续迭代； 2、数据分布分析：对模型训练数据分布进行详细分析，识别数据偏差、不均衡及潜在问题。提供数据分布的可视化报告及改进建议，确保模型训练数据覆盖目标场景和多样性需求； 3、用户数据分析：分析用户交互数据，评估视频生成效果与用户满意度，提取用户反馈中的数据优化方向。构建用户行为分析模型，探索用户需求变化并为模型优化提供参考； 4、优化模型生成效果：构建数据飞轮。通过数据驱动的方法优化视频生成大模型效果，结合A/B测试等手段验证调整效果。与算法工程师合作，制定数据调整与扩展策略，提升模型在真实场景中的生成能力。

更新于 2025-07-15北京

多模态大模型算法工程师-【可灵AI-数据效能研究方向】

社招3-5年J0011

1、数据效能研究（Data Efficiency）：基于多模态大模型训练过程，分析不同模态数据的有效性、信息增益与贡献度；参与数据选择、数据蒸馏、难例挖掘等前沿技术探索，提升训练效率与模型表现； 2、数据–模型协同设计（Co-Design）：与模型团队协作，从训练曲线、梯度信号与分布特征中反推数据质量，研究分阶段（预训练/SFT/对齐）数据策略，设计高效的数据结构与采样机制； 3、高质量数据构建（Data Quality Engineering）：参与多模态数据 pipeline，包括自动标注、Caption 生成、数据去噪与一致性检查；探索弱监督、合成数据与模型 in-the-loop 的高质量数据生产方式； 4、多模态数据分析（Multimodal Analytics）：对训练数据进行覆盖度、偏差与难度分析，构建可视化与指标体系，为模型能力诊断与数据重构提供依据。

更新于 2026-03-30北京|深圳

多模态大模型数据处理算法工程师 —【可灵团队】

社招3-5年J0011

1、数据特征算法方案制定与效果优化：针对不同模态、多种类目的数据，设计自动化筛选方案；对多模态数据涉及的前沿特征算法（如物体跟踪、ID 重识别、音频分离）进行场景化效果优化。与算法工程师协作，制定数据调整与扩展策略，提升模型在真实场景中的生成能力； 2、数据 pipeline 建设：负责多模态大模型训练数据的构建与管理，参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源，设计有效的数据分布策略，支持模型持续迭代； 3、数据分布分析：对模型训练数据分布进行详细分析，识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议，确保训练数据覆盖目标场景并满足多样性需求，最终通过数据驱动方法优化视频生成大模型效果。

更新于 2026-03-30北京