小红书【Ace顶尖实习生】面向多模态数据的向量索引组织与混合查询优化技术研究
实习兼职基础后端地点:上海 | 杭州 | 北京状态:招聘
任职要求
1、不限年级,本科及以上在读,人工智能/计算机/软件工程等相关专业优先; 2、优秀的代码能力,熟练掌握至少一门编程语言,包括但不限于Python/C/C++/Java/Go等其中一门开发语言; 3、有分布式系统/数据库系统/云原生等相关技术的研究和开发经验优先; 4、在顶级学术会议或期刊发表论文或有深入研究经历者优先; 5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。
工作职责
本课题聚焦在多模态数据场景下如何高效的组织其向量索引数据,设计并实现配套的混合查询优化技术,能根据用户请求动态选择合理的索引组合,实现耗时、吞吐的合理平衡。 预期成果是能用单一向量数据库产品原生支持异构多模态数据的向量索引构建和混合查询,为多模态大模型场景提供高效的向量支持。
包括英文材料
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
C+
https://www.freecodecamp.org/chinese/news/the-c-beginners-handbook/
本手册遵循二八定律。你将在 20% 的时间内学习 80% 的 C 编程语言。
https://www.youtube.com/watch?v=87SH2Cn0s9A
https://www.youtube.com/watch?v=KJgsSFOSQv0
This course will give you a full introduction into all of the core concepts in the C programming language.
https://www.youtube.com/watch?v=PaPN51Mm5qQ
In this complete C programming course, Dr. Charles Severance (aka Dr. Chuck) will help you understand computer architecture and low-level programming with the help of the classic C Programming language book written by Brian Kernighan and Dennis Ritchie.
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Java+
https://www.youtube.com/watch?v=eIrMbAQSU34
Master Java – a must-have language for software development, Android apps, and more! ☕️ This beginner-friendly course takes you from basics to real coding skills.
Go+
https://www.youtube.com/watch?v=8uiZC0l4Ajw
学习Golang的完整教程!从开始到结束不到一个小时,包括如何在Go中构建API的完整演示。没有多余的内容,只有你需要知道的知识。
分布式系统+
https://www.distributedsystemscourse.com/
The home page of a free online class in distributed systems.
https://www.youtube.com/watch?v=7VbL89mKK3M&list=PLOE1GTZ5ouRPbpTnrZ3Wqjamfwn_Q5Y9A
相关职位
实习大模型
本课题的研究目标是研发面向复杂场景的可拓展大规模强化学习系统。 包括不限于: 1、超大规模Reward System构建; 2、面向复杂场景构建“策略与反馈一体化”的递归自我增强方法,解决“AI超越人类”时的可拓展监督问题; 3、面向长程任务探索人机合作博弈的强化学习机制,实现模型在超长程复杂任务上的需求明确、自我规划与执行校验能力;让AI从被动完成指令的工具转变为主动推动任务进展的的协作者,实现目标对齐; 4、强化学习进程中的大模型可解释性、可理解性。
更新于 2025-08-22
实习策略算法
本课题的研究目标是打造行业领先的多语言能力强化的大语言模型,结合业务海量的多语言互译语料,以及平台生活化特色的笔记评论数据,利用数据合成、RL冷启训练、SFT和RLHF等技术,实现: 1、在小红书多语言大模型翻译场景取得领先效果; 2、多语言场景下,AI搜索的检索和生成技术。
更新于 2025-07-20
实习机器学习平台
本课题的研究目标是针对多Agent协同场景构建基于课程学习与分层强化学习的RL框架,从优先级经验回放(PER)、分布式经验复用和Actor-Critic异步计算优化等角度,攻克多目标冲突下的样本利用率低效问题。 该技术旨在突破传统RL训练在复杂任务(如小红书社区点点RL训练任务)中收敛慢、资源消耗高的瓶颈,实现训练效率提升3倍以上,支撑Agent服务快速迭代上线需求。