logo of xiaohongshu

小红书【REDstar】视觉与多模态算法工程师

校招全职AIGC算法地点:北京 | 上海状态:招聘

任职要求


1、硕士及以上学历,计算机等相关专业优先;
2、熟练掌握TensorFlow/PyTorch/Caffe/ MXNet深度学习框架中的至少一种;
3、具备优秀的编程能力和经验,熟悉PythonC/C++Java等编程语言,对数据结构算法设计有较为深刻的理解;
4、优秀的分析和解决问题能力,对新技术充满好奇,敢于挑战高难度,善于提出解决方案并快速验证;
5、了解Diffusion、LLM、VLM、Agent等前沿技术;
6、关注多模态与文本生成领域的业界最新动态,如Qwen、Gemini、Claude、chatGPT等;
7、具备优秀的研究和创新能力,在NIPS/AAAI/ICML/ICLR/CVPR/TPAMI/ACL/EMNLP/ECCV/ICCV/SIGGRAPH等会议/期刊上发表过论文者和参加过ACM竞赛者优先。

工作职责


创作发布算法方向:
1、负责图像编辑、视频剪辑、文案创作等内容创作相关算法的研发与优化,并在社区发布、商业化&电商创作等场景落地;
2、跟进多模态大模型内容生产、Agent等相关技术的最新发展趋势,保持技术先进性,持续探索Agent在内容创作方面的潜力。

内容理解方向:
1、负责多模态内容理解、图像理解以及NLP相关的算法研发工作,提升搜索、广告、推荐、创作发布的效果和体验;
2、负责包括但不限于多模态大模型Pre/PostTrain、数据挖掘,持续优化并突破业界SOTA效果,兼具落地以获取业务线上收益;
3、紧密关注相关领域业界的最新进展,时刻保持技术先进性,探索前沿技术的落地结合点。

AIGC生成方向:
1、负责多模态生成/GAN/Diffusion等图像&视频生成相关算法研发与优化, 跟进该领域的前沿技术研究;
2、参与技术规划制定, 跟进图像&视频生成技术最新发展趋势,打造业内领先的多模态内容生成能力。;
3、推动技术在图像&视频编辑/素材生成/辅助设计/特效等领域的应用。
包括英文材料
学历+
TensorFlow+
PyTorch+
MXNet+
深度学习+
Python+
C+
C+++
Java+
数据结构+
算法+
大模型+
AI agent+
NeurIPS+
ICML+
CVPR+
ECCV+
ICCV+
相关职位

logo of xiaohongshu
校招AIGC算法

内容理解方向: 1、负责多模态内容理解、图像理解以及NLP相关的工作,应用图像和NLP技术,提升发布侧基础工具效果和体验; 2、负责包括但不限于大规模预训练模型、数据挖掘,持续优化并时刻保持技术先进性,将业界SOTA模型落地并改进以获取业务线上收益; 3、紧密关注相关领域业界的最新进展,并负责在发布&增长等业务的落地应用。 生成方向: 1、负责多模态生成/GAN等图像生成相关算法研发与优化, 跟进计算机视觉领域的前沿技术研究; 2、参与技术规划制定, 把握图像生成技术最新发展趋势; 3、推动技术在特效/素材生成/辅助设计等领域的应用。 基础视觉方向 1、参与计算机视觉(检测、分割、人脸、人体)的前沿技术的研究和落地; 2、为小红书发布侧提供基础视觉算法能力,为更多的模版服务,提升UGC使用体验。 AIGC方向: 1、参与计算机视觉、自然语言处理、多模态等领域的前沿技术研究; 2、利用前沿AIGC算法,打造业内领先的多媒体内容理解和生成能力。

logo of xiaohongshu
校招策略算法

1、负责小红书搜索效果优化和前沿技术的探索,团队利用先进的生成式大模型、问答对话、多模态、大规模 CTR 预估、海量 ANN索引、流式机器学习框架等技术,通过 Query 分析优化、向量索引、内容理解、召回排序、相关性、预估等业务,为海量用户提供精准、快捷、智能化、个性化的搜索体验。

logo of xiaohongshu
校招AIGC算法

创意是内容的呈现方式,而文本、图像、视频和模版是创意的重要载体。探索文生图/图片编辑技术、文生视频/视频编辑技术和LLM/MLLM技术分别在增长、广告、营销、社区等领域的应用,生成质量高且有投放竞争力的素材。 1、负责 lmage-to-Video、Text-to-Video、Animation 等视频内容生成算法研发,从视频素材和视频创意玩法两个维度进行落地; 2、基于 Stable Diffusion 的图像内容研发,包括算法开发、模型微调、性能优化、模型服务化等工作,重点解决生成质量、多样性、可控性、可编辑等问题; 3、基于diffusion技术的创意元素生成,如海报、icon、banner、艺术字体、Layout、3D商品展示等; 4、解决业务落地中的关键技术问题,持续跟进业界AIGC 技术最新进展,加速新技术的引进、适配与优化。

更新于 2025-09-08
logo of xiaohongshu
校招大模型

参与视觉语言大模型的研发工作,主要负责: 1、VIT Pretrain:提升模型感知能力,包括但不限于 Vision Encoder Pretrain 算法架构 / 多种感知能力数据构建; 2、VLM Pretrain:提升 vlm pretrain 的通用能力,探索各种不同训练阶段设计 / 不同通用数据的组织形式; 3、VLM Post train:提升 vlm 通用能力,包括但不限于合成数据 / RL 等方法; 4、生成理解统一:探索生成理解统一架构,同时提升理解和生成能力。

更新于 2025-07-02