小红书【Ace顶尖实习生】向量检索在大模型场景的应用和优化研究
实习兼职引擎地点:上海 | 杭州 | 北京状态:招聘
任职要求
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先; 2、编程基本功扎实,具有扎实的数据结构和算法功底,熟悉常用的设计模式、软件架构模式、计算网络、操作系统,擅长Java/C++至少一门语言; 3、 在Github上拥有有影响力的开源项目,或者是行业著名开源项目的核心贡献者优先,参加过ACM竞赛者优先,对推荐前沿技术有了解的优先; 4、在国际会议或期刊发表论文者(包括但不限于 ACL、EMNLP、NeurIPS、ICML、ICLR等)优先; 5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。
工作职责
本课题研究如何优化向量检索技术以增强大型语言模型能力。 主要方向包括: 1、优化高维向量索引结构,实现千亿级多模态数据的高效检索; 2、设计多Agent场景下的智能检索增强生成(Agentic RAG)策略,探索检索结果与大模型上下文的最优融合方法; 3、研究基于向量检索优化大模型推理过程中的KV Cache机制,为智能体应用的效果优化和大模型推理提供关键技术支持。
包括英文材料
数据结构+
https://www.youtube.com/watch?v=8hly31xKli0
In this course you will learn about algorithms and data structures, two of the fundamental topics in computer science.
https://www.youtube.com/watch?v=B31LgI4Y4DQ
Learn about data structures in this comprehensive course. We will be implementing these data structures in C or C++.
https://www.youtube.com/watch?v=CBYHwZcbD-s
Data Structures and Algorithms full course tutorial java
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
设计模式+
https://liaoxuefeng.com/books/java/design-patterns/index.html
设计模式,即Design Patterns,是指在软件设计中,被反复使用的一种代码设计经验。使用设计模式的目的是为了可重用代码,提高代码的可扩展性和可维护性。
[英文] Design Patterns
https://refactoring.guru/design-patterns
Design patterns are typical solutions to common problems in software design. Each pattern is like a blueprint that you can customize to solve a particular design problem in your code.
https://www.youtube.com/watch?v=NU_1StN5Tkk
Design Patterns tutorial explained in simple words using real-world examples.
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
NeurIPS+
https://neurips.cc/
ICML+
https://icml.cc/
ICLR+
https://iclr.cc/
相关职位
实习基础后端
本课题聚焦在多模态数据场景下如何高效的组织其向量索引数据,设计并实现配套的混合查询优化技术,能根据用户请求动态选择合理的索引组合,实现耗时、吞吐的合理平衡。 预期成果是能用单一向量数据库产品原生支持异构多模态数据的向量索引构建和混合查询,为多模态大模型场景提供高效的向量支持。
更新于 2025-07-19
实习策略算法
传统的AI搜索依然基于RAG框架,少有的几个Agent框架也只涉及QueryPlanning,距离真实解决搜索中的实际问题还相距很远,例如做旅游攻略、做行业研究报告等等。我们判断,虽然当下LLM已经大范围的用于搜索领域,但是下一代的搜索技术变革一定是基于Agent的。本课题旨在研究基于Agent框架的基座模型。
实习策略算法
本课题的研究目标是打造行业领先的多语言能力强化的大语言模型,结合业务海量的多语言互译语料,以及平台生活化特色的笔记评论数据,利用数据合成、RL冷启训练、SFT和RLHF等技术,实现: 1、在小红书多语言大模型翻译场景取得领先效果; 2、多语言场景下,AI搜索的检索和生成技术。
更新于 2025-07-20