小红书【Ace顶尖实习生】多场景任务下的大模型统一基座模型

校招全职内容理解2025-12-19地点：北京 | 上海 | 杭州状态：招聘

扫码手机上打开

任职要求

1、不限年级，本科及以上在读，计算机/人工智能/软件工程等相关专业优先；
2、优秀的代码能力、数据结构和基础算法功底，熟悉Python等至少一门编程语言；
3、熟悉大模型领域尤其是强化学习相关研究工作…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

本课题希望探索有效的统一大模型基座方案及提升多场景联合预训练的效果。目前公司内部不同业务场景下存在多套Embedding&标签大模型，部署成本较高，且应用在下游端到端建模任务如序列推荐时也多有不便，希望在多场景下对多套不同的Embedding&标签做整合，共用一套统一的基座模型，降低部署成本。同时通过融合的方式，对多场景数据进行综合建模，提升多场景的Embedding&标签效果。

统一基座模型需要解决的核心技术难点包括：
1、基座统一但仍可支持业务的定制微调，且训练成本和推理成本较低；
2、多体裁内容（如笔记、直播、商品、Query等）的理解可以融合在一个统一模型，且效果比独立训练更好。

研究方向会针对要解决的问题设立，包括：基于多Head或MoE的轻量化微调及融合推理、多体裁内容形式的统一建模。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

数据结构+

算法+

Python+

大模型+

还有更多 •••

登录查看完整学习资料

相关职位

Hi Lab-【Ace顶尖实习生】可泛化的通用推理能力提升方法

实习大模型

本课题的研究目标是增强大模型的通用推理能力，通过研究多模态环境下的推理学习机制、真实世界任务的解决策略、基于强化学习的能力优化，以及构建多样性的奖励系统和训练环境。研究将聚焦于如何使模型能够在跨领域和复杂场景中综合运用文本、图像、音频等多模态信息进行推理，有效处理现实世界的开放性问题，并通过精心设计的环境反馈机制持续优化模型的决策能力，从而提升AI系统在不同任务下的泛化能力和可靠性。

更新于 2025-08-22上海|北京|杭州

【Ace顶尖实习生】面向多Agent架构的分布式强化学习训练技术研究

校招机器学习平台

本课题的研究目标是针对多Agent协同场景构建基于课程学习与分层强化学习的RL框架，从优先级经验回放(PER)、分布式经验复用和Actor-Critic异步计算优化等角度，攻克多目标冲突下的样本利用率低效问题。该技术旨在突破传统RL训练在复杂任务（如小红书社区点点RL训练任务）中收敛慢、资源消耗高的瓶颈，实现训练效率提升3倍以上，支撑Agent服务快速迭代上线需求。

更新于 2025-11-21北京|上海|杭州

【Ace顶尖实习生】多智能体端到端强化学习技术研究

校招大模型

多智能体已成为AI应用领域的关键技术，如何通过多智能体协作解决复杂任务是AI应用领域的研究热点。本课题拟聚焦于端到端强化微调技术，通过事务级的规划和行动，结合代码生成、界面交互等能力对全场景工具进行调用，显著提升AI系统端到端解决复杂任务的能力。该研究将支持旅行攻略生成、运动健康规划等应用场景，重新定义AI垂类应用的能力边界和业务价值。

更新于 2025-12-19北京|上海|杭州

【Ace顶尖实习生】面向大模型推理提速的CoT压缩算法研究

校招机器学习平台

随着大型语言模型（LLMs）的快速发展，其在复杂任务中的推理效率问题日益凸显。本课题聚焦于LLMs的推理加速，旨在研究高效的Chain-of-Thought（CoT）压缩算法，以优化模型的推理过程，减少计算开销并提高响应速度，同时保持推理的准确性；同时，课题将深入分析现有LLMs的推理机制，探索如何通过算法创新来实现CoT的高效压缩。具体研究内容包括但不限于：基于模型结构进行优化、基于推理过程进行优化、基于Prompt进行优化、以及基于数据驱动的压缩策略等。通过本课题的研究，期望能够为LLMs的高效推理提供新的理论和技术支持，推动其在更多实际场景中的广泛应用。

更新于 2025-11-21北京|上海|杭州