小红书【hi lab】通用基座大模型算法工程师-Posttrain

社招全职3-5年大模型2026-02-05地点：北京 | 上海 | 杭州状态：招聘

扫码手机上打开

任职要求

基础要求
扎实的机器学习 / 深度学习基础，对模型训练全流程有深入理解
熟悉至少一个方向：
强化学习（RL Scaling / RLAIF / Online RL 等）
多模态学习（尤其是视频、时序、感知建模）
Agent / 多智能体系统
良好的工程能力，能将研究想法落地为稳定系统
…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们相信，通向更高阶智能的路径不止于更大的 LLM。
Post-Training 正在成为模型能力跃迁的关键阶段：从“学会语言”走向“理解世界、优化行为、持续进化”。该岗位将深度参与 多模态、强化学习、自进化 Agent 系统 等前沿方向，探索超越纯预训练范式的新能力边界，构建可持续学习、可记忆、可进化的智能系统。

1. Post-Training 核心研究与系统构建
设计并实现面向 推理能力、策略优化和长期表现 的后训练方法
探索 Reasoning RL Scaling、RLAIF for Fuzzy Task、Self-Play、Scalable Oversight 等在大模型中的新用法
将 Post-Training 视为 系统级优化问题，而非单次调参或 reward hacking
2. 强化学习与持续进化机制
设计基于试错和反馈的训练闭环（例如，Natural Language FeedBack），使模型具备自我修正和能力生长
探索 RL 在 边缘能力、长尾任务、工具使用和复杂决策 中的作用
研究长期学习（Lifelong Learning）、稳定性、遗忘控制等关键问题
3. 多模态与“世界建模”
参与多模态模型（尤其是视频、时序感知）的 Post-Training 研究
探索从“语言建模”走向“世界建模”的训练目标与评估方式
研究感知、行动与决策的联合优化，而非简单模态拼接
4. Agent 与自进化系统
构建“可训练的 Agent 系统”，而不仅是工具调用的外壳
设计 Agent 的记忆、学习、反思与策略更新机制
将 Agent 视为一个 持续演化的产品级智能体
5. 新范式与新架构探索
对现有 Attention、NTP 等范式保持批判性思考，例如探索全新的
探索新架构、新目标函数、新训练范式在 Post-Training 中的可能性
参与从模型 → 推理过程 → 自学习环境（System-level Scaling）的演进

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

强化学习+

还有更多 •••

登录查看完整学习资料

相关职位

【hi lab】大模型预训练算法工程师

社招1-3年大模型

1、建立文本和多模态数据源、数据格式解析(网页，PDF等)、数据策略、模型能力、下游任务的全链路归因能力 2、建立并持续完善的数据质量、多样性、重复度、覆盖率等评估体系，分析和量化每个维度的影响 3、针对模型核心能力进行重点强化，包括不限于数学、推理、Code、Agent、ICL、OCR等 4、探索如何使用更少数据量，达到同样模型能力的策略，持续提升per token的通用能力训练效果 5、探索基于各类策略的高质量数据生成方式，定向优化特定模型能力和为长期Scaling Law解决数据缺失问题

更新于 2025-09-15北京|上海

Hi Lab-【Ace顶尖实习生】可泛化的通用推理能力提升方法

实习大模型

本课题的研究目标是增强大模型的通用推理能力，通过研究多模态环境下的推理学习机制、真实世界任务的解决策略、基于强化学习的能力优化，以及构建多样性的奖励系统和训练环境。研究将聚焦于如何使模型能够在跨领域和复杂场景中综合运用文本、图像、音频等多模态信息进行推理，有效处理现实世界的开放性问题，并通过精心设计的环境反馈机制持续优化模型的决策能力，从而提升AI系统在不同任务下的泛化能力和可靠性。

更新于 2025-08-22上海|北京|杭州

Hi Lab-【Ace顶尖实习生】探索多模态大模型的通用能力增强和跨模态能力迁移

实习大模型

本课题的研究目标是： 1、研究如何充分用好文本、图片、视频等各个模态的有效信息，进行高效的多模态数据表征和联合建模，能够更加高效的从各个模态中学习有效信息； 2、探索多模数据如何才能更高效的学习，多模数据如何对文本智能能力有提升，探索理解和生成的联合建模如何进一步提高多模态模型的能力上限。

更新于 2025-08-22北京|上海|杭州

【REDstar】Hi Lab-大语言模型基础技术研究员

校招

文本大模型团队的主要负责小红书大语言模型的端到端全链路自研。主要研究方向包括: 1、持续探索大语言模型在不同阶段的高效scaling策略； 2、预训练的关键技术探索: 包括从数据策略(筛选，配比，合成，学习效率的提升)、优化技术、可解释性，到下一代模型结构的设计、long context建模、学习范式探索等； 3、通用alignment技术探索: 包括大规模RL的探索，持续提升大模型在通用能力、reasoning、长文本、agent、各方向中长尾知识等多个方向的综合能力，支撑更广泛的应用场景； 4、跟下游的多模态同学一起探索端到端全模态大模型的设计和高效scaling策略；团队有充足的GPU计算资源，同时跟整个技术社区也有密切合作，开源开放。

更新于 2026-03-28北京|上海