logo of xiaohongshu

小红书基础模型算法工程师 - VLM Post-training

社招全职1-3年大模型地点:北京 | 上海状态:招聘

任职要求


我们希望你具备:
背景: 计算机、视觉、机器人等相关专业硕士/博士;熟悉主流 VLM 架构(如 LLaVA, Qwen-VL, InternVL 等)。
专业深耕: 在 计算机视觉(CV)、多模态学习 或 视频理解…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


岗位定位:
本岗位侧重于构建大模型的“视觉与感知”能力。小红书拥有业界最独特的图文与短视频 UGC 数据生态,你将负责 VLM 的 Post-training,让模型深度理解,支撑小红书所有业务场景,包括且不限于搜索、广告、推荐、电商、客服及智能发布等核心场景。

你的工作内容:
负责 VLM 的 SFT/RL/Post-training 流程,提升图文、视频与文本之间的语义对齐和指令遵循能力;
构建视觉 Reasoning 能力,提升模型在复杂图文理解、视频时序理解、多图推理、空间关系推理等任务上的表现;
研发多模态 Agent 能力,使模型能够进行任务分解、计划生成、工具调用、结果验证和自我修正;
建设 VLM Tool-use 能力,支持搜索、知识库、商品库、OCR、ASR、视频分析、审核规则等内部工具调用;
优化长视频理解和多帧推理能力,提升模型对视频内容、事件、时序关系和深层语义的理解效率;
面向小红书搜索、推荐、广告、电商、审核和内容创作等业务场景,构建数据、训练、评测和上线闭环。
包括英文材料
OpenCV+
PyTorch+
CVPR+
还有更多 •••