小红书【Ace顶尖实习生】多场景任务下的大模型统一基座模型
实习兼职内容理解地点:北京 | 上海 | 杭州状态:招聘
任职要求
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先; 2、优秀的代码能力、数据结构和基础算法功底,熟悉Python等至少一门编程语言; 3、熟悉大模型领域尤其是强化学习相关研究工作和算法,有大模型强化学习的研发基础; 4、在ICML/CVPR/NeurIPS/ACL等顶级期刊会议上发表论文者优先; 5、良好的沟通协作能力,责任心强,积极主动,能和团队一起探索新技术,推进技术进步。
工作职责
本课题希望探索有效的统一大模型基座方案及提升多场景联合预训练的效果。目前公司内部不同业务场景下存在多套Embedding&标签大模型,部署成本较高,且应用在下游端到端建模任务如序列推荐时也多有不便,希望在多场景下对多套不同的Embedding&标签做整合,共用一套统一的基座模型,降低部署成本。同时通过融合的方式,对多场景数据进行综合建模,提升多场景的Embedding&标签效果。 统一基座模型需要解决的核心技术难点包括: 1、基座统一但仍可支持业务的定制微调,且训练成本和推理成本较低; 2、多体裁内容(如笔记、直播、商品、Query等)的理解可以融合在一个统一模型,且效果比独立训练更好。 研究方向会针对要解决的问题设立,包括:基于多Head或MoE的轻量化微调及融合推理、多体裁内容形式的统一建模。
包括英文材料
数据结构+
https://www.youtube.com/watch?v=8hly31xKli0
In this course you will learn about algorithms and data structures, two of the fundamental topics in computer science.
https://www.youtube.com/watch?v=B31LgI4Y4DQ
Learn about data structures in this comprehensive course. We will be implementing these data structures in C or C++.
https://www.youtube.com/watch?v=CBYHwZcbD-s
Data Structures and Algorithms full course tutorial java
算法+
https://roadmap.sh/datastructures-and-algorithms
Step by step guide to learn Data Structures and Algorithms in 2025
https://www.hellointerview.com/learn/code
A visual guide to the most important patterns and approaches for the coding interview.
https://www.w3schools.com/dsa/
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
大模型+
https://www.youtube.com/watch?v=xZDB1naRUlk
You will build projects with LLMs that will enable you to create dynamic interfaces, interact with vast amounts of text data, and even empower LLMs with the capability to browse the internet for research papers.
https://www.youtube.com/watch?v=zjkBMFhNj_g
强化学习+
https://cloud.google.com/discover/what-is-reinforcement-learning?hl=en
Reinforcement learning (RL) is a type of machine learning where an "agent" learns optimal behavior through interaction with its environment.
https://huggingface.co/learn/deep-rl-course/unit0/introduction
This course will teach you about Deep Reinforcement Learning from beginner to expert. It’s completely free and open-source!
https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
Build your own video game bots, using classic and cutting-edge algorithms.
ICML+
https://icml.cc/
CVPR+
https://cvpr.thecvf.com/
NeurIPS+
https://neurips.cc/
相关职位
实习大模型
本课题的研究目标是增强大模型的通用推理能力,通过研究多模态环境下的推理学习机制、真实世界任务的解决策略、基于强化学习的能力优化,以及构建多样性的奖励系统和训练环境。 研究将聚焦于如何使模型能够在跨领域和复杂场景中综合运用文本、图像、音频等多模态信息进行推理,有效处理现实世界的开放性问题,并通过精心设计的环境反馈机制持续优化模型的决策能力,从而提升AI系统在不同任务下的泛化能力和可靠性。
更新于 2025-08-22
实习机器学习平台
本课题的研究目标是针对多Agent协同场景构建基于课程学习与分层强化学习的RL框架,从优先级经验回放(PER)、分布式经验复用和Actor-Critic异步计算优化等角度,攻克多目标冲突下的样本利用率低效问题。 该技术旨在突破传统RL训练在复杂任务(如小红书社区点点RL训练任务)中收敛慢、资源消耗高的瓶颈,实现训练效率提升3倍以上,支撑Agent服务快速迭代上线需求。
实习大模型
多智能体已成为AI应用领域的关键技术,如何通过多智能体协作解决复杂任务是AI应用领域的研究热点。 本课题拟聚焦于端到端强化微调技术,通过事务级的规划和行动,结合代码生成、界面交互等能力对全场景工具进行调用,显著提升AI系统端到端解决复杂任务的能力。该研究将支持旅行攻略生成、运动健康规划等应用场景,重新定义AI垂类应用的能力边界和业务价值。
更新于 2025-07-03