小红书【REDstar】视觉与多模态算法工程师
任职要求
1、硕士及以上学历,计算机等相关专业优先; 2、熟练掌握TensorFlow/PyTorch/Caffe/ MXNet等深度学习框架中的至少一种; 3、具备优秀的编程能力和经验,熟悉Python、C/C++、Java等编程语言,对数据结构和算法设计有较为深刻的理解; 4、优秀的分析和解决问题能力,对新技术充满好奇,敢于挑战高难度,善于提出解决方案并快速验证; 5、了解Diffusion、LLM、VLM、Agent等前沿技术; 6、关注多模态与文本生成领域的业界最新动态,如Qwen、Gemini、Claude、chatGPT等; 7、具备优秀的研究和创新能力,在NIPS/AAAI/ICML/ICLR/CVPR/TPAMI/ACL/EMNLP/ECCV/ICCV/SIGGRAPH等会议/期刊上发表过论文者和参加过ACM竞赛者优先。
工作职责
创作发布算法方向: 1、负责图像编辑、视频剪辑、文案创作等内容创作相关算法的研发与优化,并在社区发布、商业化&电商创作等场景落地; 2、跟进多模态大模型内容生产、Agent等相关技术的最新发展趋势,保持技术先进性,持续探索Agent在内容创作方面的潜力。 内容理解方向: 1、负责多模态内容理解、图像理解以及NLP相关的算法研发工作,提升搜索、广告、推荐、创作发布的效果和体验; 2、负责包括但不限于多模态大模型Pre/PostTrain、数据挖掘,持续优化并突破业界SOTA效果,兼具落地以获取业务线上收益; 3、紧密关注相关领域业界的最新进展,时刻保持技术先进性,探索前沿技术的落地结合点。 AIGC生成方向: 1、负责多模态生成/GAN/Diffusion等图像&视频生成相关算法研发与优化, 跟进该领域的前沿技术研究; 2、参与技术规划制定, 跟进图像&视频生成技术最新发展趋势,打造业内领先的多模态内容生成能力。; 3、推动技术在图像&视频编辑/素材生成/辅助设计/特效等领域的应用。
内容理解方向: 1、负责多模态内容理解、图像理解以及NLP相关的工作,应用图像和NLP技术,提升发布侧基础工具效果和体验; 2、负责包括但不限于大规模预训练模型、数据挖掘,持续优化并时刻保持技术先进性,将业界SOTA模型落地并改进以获取业务线上收益; 3、紧密关注相关领域业界的最新进展,并负责在发布&增长等业务的落地应用。 生成方向: 1、负责多模态生成/GAN等图像生成相关算法研发与优化, 跟进计算机视觉领域的前沿技术研究; 2、参与技术规划制定, 把握图像生成技术最新发展趋势; 3、推动技术在特效/素材生成/辅助设计等领域的应用。 基础视觉方向 1、参与计算机视觉(检测、分割、人脸、人体)的前沿技术的研究和落地; 2、为小红书发布侧提供基础视觉算法能力,为更多的模版服务,提升UGC使用体验。 AIGC方向: 1、参与计算机视觉、自然语言处理、多模态等领域的前沿技术研究; 2、利用前沿AIGC算法,打造业内领先的多媒体内容理解和生成能力。
1、负责小红书搜索效果优化和前沿技术的探索,团队利用先进的生成式大模型、问答对话、多模态、大规模 CTR 预估、海量 ANN索引、流式机器学习框架等技术,通过 Query 分析优化、向量索引、内容理解、召回排序、相关性、预估等业务,为海量用户提供精准、快捷、智能化、个性化的搜索体验。
创意是内容的呈现方式,而文本、图像、视频和模版是创意的重要载体。探索文生图/图片编辑技术、文生视频/视频编辑技术和LLM/MLLM技术分别在增长、广告、营销、社区等领域的应用,生成质量高且有投放竞争力的素材。 1、负责 lmage-to-Video、Text-to-Video、Animation 等视频内容生成算法研发,从视频素材和视频创意玩法两个维度进行落地; 2、基于 Stable Diffusion 的图像内容研发,包括算法开发、模型微调、性能优化、模型服务化等工作,重点解决生成质量、多样性、可控性、可编辑等问题; 3、基于diffusion技术的创意元素生成,如海报、icon、banner、艺术字体、Layout、3D商品展示等; 4、解决业务落地中的关键技术问题,持续跟进业界AIGC 技术最新进展,加速新技术的引进、适配与优化。