小红书基础模型算法工程师 - VLM Post-training
社招全职1-3年大模型地点:北京 | 上海状态:招聘
任职要求
我们希望你具备:
背景: 计算机、视觉、机器人等相关专业硕士/博士;熟悉主流 VLM 架构(如 LLaVA, Qwen-VL, InternVL 等)。
专业深耕: 在 计算机视觉(CV)、多模态学习 或 视频理解…登录查看完整任职要求
微信扫码,1秒登录
工作职责
岗位定位: 本岗位侧重于构建大模型的“视觉与感知”能力。小红书拥有业界最独特的图文与短视频 UGC 数据生态,你将负责 VLM 的 Post-training,让模型深度理解,支撑小红书所有业务场景,包括且不限于搜索、广告、推荐、电商、客服及智能发布等核心场景。 你的工作内容: 负责 VLM 的 SFT/RL/Post-training 流程,提升图文、视频与文本之间的语义对齐和指令遵循能力; 构建视觉 Reasoning 能力,提升模型在复杂图文理解、视频时序理解、多图推理、空间关系推理等任务上的表现; 研发多模态 Agent 能力,使模型能够进行任务分解、计划生成、工具调用、结果验证和自我修正; 建设 VLM Tool-use 能力,支持搜索、知识库、商品库、OCR、ASR、视频分析、审核规则等内部工具调用; 优化长视频理解和多帧推理能力,提升模型对视频内容、事件、时序关系和深层语义的理解效率; 面向小红书搜索、推荐、广告、电商、审核和内容创作等业务场景,构建数据、训练、评测和上线闭环。
包括英文材料
OpenCV+
https://learnopencv.com/getting-started-with-opencv/
At LearnOpenCV we are on a mission to educate the global workforce in computer vision and AI.
https://opencv.org/university/free-opencv-course/
This free OpenCV course will teach you how to manipulate images and videos, and detect objects and faces, among other exciting topics in just about 3 hours.
PyTorch+
https://datawhalechina.github.io/thorough-pytorch/
PyTorch是利用深度学习进行数据科学研究的重要工具,在灵活性、可读性和性能上都具备相当的优势,近年来已成为学术界实现深度学习算法最常用的框架。
https://www.youtube.com/watch?v=V_xro1bcAuA
Learn PyTorch for deep learning in this comprehensive course for beginners. PyTorch is a machine learning framework written in Python.
CVPR+
https://cvpr.thecvf.com/
还有更多 •••