快手音视频大模型算法工程师
社招全职3-5年D0268地点:北京状态:招聘
任职要求
1、在计算机视觉/人工智能领域CCF-A类会议或期刊发表过高质量研究论文者,或在各类视觉和算法竞赛中取得显著成绩者优先; 2、熟悉常见的low-level图像处理方法,包括但不限于去噪、超分辨率等算法; 3、熟悉常见的传统编解码和AI codec优化技术,如H.265、VVC等标准等; 4、对AGI有强烈的热情和远见。
工作职责
1、负责研发基于diffusion的low-level视频处理算法,专注于提升算法性能,包括但不限于网络架构设计、算法优化、大规模数据处理以及Diffusion模型保真性提升; 2、负责研发基于diffusion的视频压缩和生成框架,致力于突破视频生成极限,涉及图像/视频压缩算法的创新设计和优化; 3、持续关注并分析国际前沿的AI技术动态,将最新的处理及编解码技术融入现有模型,为研发下一代基于AI的高效视频处理系统提供技术基础。
包括英文材料
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
图像处理+
https://opencv.org/blog/computer-vision-and-image-processing/
This fascinating journey involves two key fields: Computer Vision and Image Processing.
https://www.geeksforgeeks.org/python/image-processing-in-python/
Image processing involves analyzing and modifying digital images using computer algorithms.
https://www.youtube.com/watch?v=kSqxn6zGE0c
In this Introduction to Image Processing with Python, kaggle grandmaster Rob Mulla shows how to work with image data in python!
相关职位
实习J1007
1、参与快手音视频大模型研发,内容包括视频处理大模型/编码大模型。其整体目标是用更少的码率,转出画质更好的视频,从而为用户带来更好的体验,实现压缩即智能; 2、负责点播/直播的处理大模型开发,探索超分等处理大模型算法上限,内容包括网络架构设计和优化,大规模数据处理, Diffusion保真性优化等; 3、负责点播/直播的编码大模型开发,探索AI codec的压缩上限,内容包括压缩网络框架设计和优化,与H.265等传统算法性能评估等; 4、跟踪国内外最新的前沿AI技术,融合处理和编码大模型,为公司研发出下一代基于AI的高效视频转码系统。
更新于 2025-03-18
社招A32514
1、设计与研发LLM、VLM及音视频的大模型评测体系,支持大量的模型迭代与研发; 2、构建业务域场景的评测体系,支持各业务域的评测能力; 3、负责设计整体的评测体系、框架、以及大规模快速的分布式评测; 4、研发大模型评测框架与平台,能够可视化支持各种类型的评测。
更新于 2024-09-11
社招A21843
1、算法方向:负责设计和开发多模态AI模型,包括但不限于音视频处理、图片理解、文档理解、表格理解等核心技术; 2、业务场景:将多模态算法应用于会议纪要生成、企业问答、智能文档创作等协同办公场景,提升办公智能化水平; 3、性能优化:优化多模态模型在实际应用中的性能和用户体验,包括延迟、准确性和资源利用效率; 4、产品协作:与产品团队紧密合作,深入理解用户需求,提供创新的AI解决思路; 5、技术建设:持续关注业界最新的技术趋势和研究成果,分享行业最佳实践,推动团队技术能力提升。
更新于 2025-02-17