快手(可灵AI专项)多模态理解算法工程师
社招全职3年以上D4124地点:深圳状态:招聘
任职要求
1、学历与经验:硕士及以上学历,3年及以上相关工作经验。计算机视觉、自然语言处理或多模态方向背景优先; 2、学术背景:具备较强的学术调研能力,能快速理解和实现论文中的算法;有高质量论文发表、开源项目贡献、ACM竞赛或相关学术比赛获奖经历者优先; 3、深度学习能力:熟练掌握深度学习框架(如PyTorch、TensorFlow),有模型训练、压缩、蒸馏和…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
1、大规模视频理解:负责可灵海量视频数据的打标分类、语义分割、文字识别、Caption生成、聚类分析等工作; 2、模型开发与优化:基于CNN、VLM等技术推进模型训练、微调、评测及高效部署,推动模型在实际场景中的大规模应用; 3、技术研究与创新:聚焦多模态视频生成领域前沿课题,探索生成模型的数据采样技术,提升生成模型的数据使用效率和语义响应能力,打造在业界的领先技术优势; 4、跨领域协作:参与跨团队跨部门技术协同,推动Human in the loop在视频生成领域的研究落地。
包括英文材料
学历+
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
NLP+
https://www.youtube.com/watch?v=fNxaJsNG3-s&list=PLQY2H8rRoyvzDbLUZkbudP-MFQZwNmU4S
Welcome to Zero to Hero for Natural Language Processing using TensorFlow!
https://www.youtube.com/watch?v=R-AG4-qZs1A&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX
Natural Language Processing tutorial for beginners series in Python.
https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4
The foundations of the effective modern methods for deep learning applied to NLP.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
深度学习+
https://d2l.ai/
Interactive deep learning book with code, math, and discussions.
还有更多 •••
相关职位
社招3-5年D4124
1、大规模视频理解:负责可灵海量视频数据的打标分类、语义分割、文字识别、Caption生成、聚类分析等工作; 2、模型开发与优化:基于CNN、VLM等技术推进模型训练、微调、评测及高效部署,推动模型在实际场景中的大规模应用; 3、技术研究与创新:聚焦多模态视频生成领域前沿课题,探索生成模型的数据采样技术,提升生成模型的数据使用效率和语义响应能力,打造在业界的领先技术优势; 4、跨领域协作:参与跨团队跨部门技术协同,推动Human in the loop在视频生成领域的研究落地。
更新于 2025-08-04北京
社招3-5年D7115
1、研发行业领先且实用的AIGC视觉生成大模型技术,包括AIGC视觉生成大模型、文生图、图生图、保ID的可控编辑、图文/视频多模态理解及生成技术落地; 2、构建完整的AIGC视觉生成系统链路,推动在快手创作/消费/搜索/商业化/AI生产工具等场景的规模应用,实现AIGC关键技术突破、极致打磨效果体验,在各业务场景创作用户价值; 3、负责AIGC技术及产品效果创新,持续打造业界的技术口碑及影响力。
更新于 2025-12-02北京
社招3-5年D2863
1、对接视频/图片/音频等各类多模态模型的数据生产需求,打造业界领先的多模态数据生产引擎,持续提升训练数据的规模、质量和迭代效率,支撑可灵全系多模态生成模型训练; 2、搭建 Data Centric 的多模态数据处理 pipeline,包括数据处理算子开发、跨模态检索引擎开发、多模态数据的内容理解、质量筛选、组织与合成等关键环节; 3、构建高可用、高吞吐的数据算法服务框架,支持多模态模型服务的快速部署,持续优化多模态数据的存储以及检索效率。
更新于 2025-09-18北京