logo of kuaishou

快手多模态大模型数据算法专家(Keye)

社招全职3-5年D13918地点:北京状态:招聘

任职要求


1、在深度学习、多模态大模型、视频内容理解等领域有深入理解;
2、熟悉深度学习框架(如PyTorch),在模型训练、压缩和微调方面有丰富实践经验;
3、掌握OCR文字检测与识别、多模态内容理解大模型、多模态相似检索和聚类等算法;
4、具备丰富的大规模视频理解系统的架构设计及开发经验,熟悉Python微服务开发,熟悉TensorRT、vllm等推理优化技术;
5、具备可视化…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、大规模多模态数据理解:负责海量多模态数据的打标分类、语义分割、检测、OCR文字识别、Caption生成等工作,提升数据的可用性与质量;
2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,并设计数据飞轮闭环,将用户交互数据反哺模型迭代;
3、制订长期规划:制定并实施大模型数据建设的长期发展规划,持续推动技术迭代与业务应用场景的拓展。
包括英文材料
深度学习+
大模型+
PyTorch+
OCR+
算法+
系统设计+
Python+
还有更多 •••
相关职位

logo of kuaishou
社招D4910

1、主导多模态大模型的后训练全流程优化,包括指令微调(SFT)、强化学习(RLHF/DPO/PPO)、模型蒸馏等技术的研发与工程实现,持续提升模型在通用领域及垂直领域(如短视频理解、电商理解)的泛化能力和安全性; 2、参与多模态合成数据生成(覆盖纯文本、图文及视频等内容理解维度)、建立数据质量评估体系,设计数据蒸馏流程,推动​​数据-模型-评测​​迭代优化; 3、面向短视频社区、电商内容理解等场景,解决后训练阶段的核心挑战,​​如​​跨模态对齐一致性、长上下文推理、多任务指令冲突优化以及多模态智能推理探索等;推动技术成果转化,主导模型在快手短视频社区的集成落地(例如RAG增强系统、多模态Agent任务规划),并通过API封装与服务化支撑业务创新; 4、跟踪前沿多模态大模型后训练技术的前沿演进,探索SFT自动化迭代、轻量化RLHF以及reward model一体化等创新技术方向,形成专利或顶会论文提升团队技术影响力。

更新于 2025-08-05北京
logo of kuaishou
社招D13360

1、参与快手自研多模态大模型预训练算法工作,依托快手视频社区平台,构建最具影响力的多模态理解基座模型和开源生态; 2、参与多模态大模型架构探索,包括但不限于万亿级参数多模态MoE模型的训练、多模态信息编码方案设计、探索更高效的图文/视频/音频等编码方式、多模态表征学习和语义对齐策略的探索、超长上下文模型开发等; 3、参与高质量预训练数据构建,包括从但不限于大规模混合模态预训练数据构建(探索多模态Scaling)、高质量多模态语义对齐数据合成、探索模型自我迭代提升路径、感知能力专家模型研发(包括OCR、Caption、Grounding等); 4、参与生成理解统一的多模态大模型研发。

更新于 2025-12-02北京
logo of kuaishou
实习D13918

1、依托快手视频社区平台,构建最具影响力的多模态理解基座模型和开源生态; 2、参与多模态大模型架构探索,包括但不限于万亿级参数多模态MoE模型的训练、多模态信息编码方案设计、探索更高效的图文/视频/音频等编码方式、多模态表征学习和语义对齐策略的探索、超长上下文模型开发等; 3、参与高质量训练数据构建,包括从但不限于大规模混合模态预训练数据构建(探索多模态Scaling)、高质量多模态语义对齐数据合成、探索模型自我迭代提升路径、感知能力专家模型研发(包括OCR、Caption、Grounding等); 4、协助研发理解与生成统一大模型的基础架构,涵盖多模态输入和输出在内的建模,实现模型在理解与生成任务上的协同优化效果。

更新于 2025-09-23北京
logo of kuaishou
社招3-5年D4124

1、数据特征算法方案制定与效果优化:针对不同模态、多种类目的数据,设计自动化筛选方案;对多模态数据涉及的前沿特征算法(如物体跟踪、ID 重识别、音频分离)进行场景化效果优化。与算法工程师协作,制定数据调整与扩展策略,提升模型在真实场景中的生成能力; 2、数据 pipeline 建设:负责多模态大模型训练数据的构建与管理,参与数据筛选、标注及质量评估工作。分析和挖掘现有数据资源,设计有效的数据分布策略,支持模型持续迭代; 3、数据分布分析:对模型训练数据分布进行详细分析,识别数据偏差、不均衡及潜在问题。提供可视化报告及改进建议,确保训练数据覆盖目标场景并满足多样性需求,最终通过数据驱动方法优化视频生成大模型效果。

更新于 2025-12-02北京