小红书【Ace顶尖实习生】多场景任务下的大模型统一基座模型
任职要求
1、不限年级,本科及以上在读,计算机/人工智能/软件工程等相关专业优先; 2、优秀的代码能力、数据结构和基础算法功底,熟悉Python等至少一门编程语言; 3、熟悉大模型领域尤其是强化学习相关研究工作…
工作职责
本课题希望探索有效的统一大模型基座方案及提升多场景联合预训练的效果。目前公司内部不同业务场景下存在多套Embedding&标签大模型,部署成本较高,且应用在下游端到端建模任务如序列推荐时也多有不便,希望在多场景下对多套不同的Embedding&标签做整合,共用一套统一的基座模型,降低部署成本。同时通过融合的方式,对多场景数据进行综合建模,提升多场景的Embedding&标签效果。 统一基座模型需要解决的核心技术难点包括: 1、基座统一但仍可支持业务的定制微调,且训练成本和推理成本较低; 2、多体裁内容(如笔记、直播、商品、Query等)的理解可以融合在一个统一模型,且效果比独立训练更好。 研究方向会针对要解决的问题设立,包括:基于多Head或MoE的轻量化微调及融合推理、多体裁内容形式的统一建模。
本课题希望探索有效的统一大模型基座方案及提升多场景联合预训练的效果。目前公司内部不同业务场景下存在多套Embedding&标签大模型,部署成本较高,且应用在下游端到端建模任务如序列推荐时也多有不便,希望在多场景下对多套不同的Embedding&标签做整合,共用一套统一的基座模型,降低部署成本。同时通过融合的方式,对多场景数据进行综合建模,提升多场景的Embedding&标签效果。 统一基座模型需要解决的核心技术难点包括: 1、基座统一但仍可支持业务的定制微调,且训练成本和推理成本较低; 2、多体裁内容(如笔记、直播、商品、Query等)的理解可以融合在一个统一模型,且效果比独立训练更好。 研究方向会针对要解决的问题设立,包括:基于多Head或MoE的轻量化微调及融合推理、多体裁内容形式的统一建模。
本课题的研究目标是增强大模型的通用推理能力,通过研究多模态环境下的推理学习机制、真实世界任务的解决策略、基于强化学习的能力优化,以及构建多样性的奖励系统和训练环境。 研究将聚焦于如何使模型能够在跨领域和复杂场景中综合运用文本、图像、音频等多模态信息进行推理,有效处理现实世界的开放性问题,并通过精心设计的环境反馈机制持续优化模型的决策能力,从而提升AI系统在不同任务下的泛化能力和可靠性。
关注如何将RL引入工业级Agent平台系统,直接对“规划—执行—反馈”的完整轨迹进行优化。 研究重点包括:如何构建trajectory-level reward、如何在工具调用与多步推理中进行credit assignment,以及如何在高成本环境下进行高效的offline/online混合训练。平台提供真实任务环境与多样化Agent执行数据,使研究从离线benchmark走向真实交互场景。该方向有望推动RL从模型对齐走向复杂任务能力学习,形成新一代Agent优化范式。
本课题聚焦小红书通用基座模型在真实业务中的“动手能力”,关注模型如何从理解用户意图,进一步演进为能够调用各类工具、完成实际任务的通用智能体。在业务场景中,无论是内容生成、数据处理还是复杂流程自动化,本质都依赖模型与外部 API、系统能力的高效协同,而不仅仅是语言生成本身。 围绕这一目标,课题从三个方向展开: 1)构建统一的工具使用“语言体系”:围绕“统一协议下的工具调用”进行建模与训练,通过抽象不同 API 的输入输出结构与调用逻辑,让模型学会用一种通用方式理解和使用各类工具,而不是依赖针对单一接口的定制化适配。目标是让工具调用像“说话”一样自然,而不是一段段硬编码的规则。 2)提升跨任务、跨领域的泛化调用能力:基于大规模异构任务的数据构造与指令微调,强化模型在 Zero-shot 场景下对新工具的理解与调用能力。即使面对从未见过的 API,模型也能够通过接口描述与上下文信息,快速完成参数推断与调用决策,实现从“见过才会用”到“没见过也能用”的跃迁。 3)增强未知环境下的逻辑迁移与决策稳定性:重点解决 Agent 在面对新工具、新任务组合时的推理与决策问题,包括调用顺序规划、异常处理以及多工具协同,使模型在复杂业务流程中能够稳定完成任务闭环,而不是在中间步骤出现偏移或失败。