小红书【Hi Lab】大模型AI native算法工程师（垂类）

社招全职大模型2026-01-05地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1、扎实机器学习与深度学习基础，熟练掌握 PyTorch / JAX / TensorFlow 等任一框架
2、熟悉后训练常用技术（SFT、RLHF / DPO / RLAIF 等）或具备相关项目 / 竞赛 / 论文经验
3、具备 实验设计与问题定位能力，能独立分析大模型在不同数据分布和任务场景下的表现
4、善于沟通…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1、Post-Training Pipeline 设计与迭代：搭建并持续优化 SFT、RM、RLHF / RLAIF / RLVF 等后训练流水线，支持多模态模型的高效迭代，让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全
2、可扩展监督与反馈系统：设计低成本人类 + AI 组合反馈机制，自动化完成偏好采集、对齐传递与数据质量评估，通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制
3、通用推理与工具使用能力提升：构建跨模态强化学习环境和多样化奖励体系，帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力
4、长期记忆、个性化与终身学习：探索持久记忆与动态偏好建模，使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力
5、安全评估与价值观对齐：搭建安全对齐机制、红队测试、越狱防御与自动化评测框架，量化模型幻觉、稳定性及价值观一致性，制定风险缓解策略，确保模型在开放场景中始终行为可控
6、跨职能落地：与产品、设计、人文训练师及数据团队，把研究成果迅速推向真实场景，打造小红书下一代战略级 AI native 应用产品

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

PyTorch+

JAX+

TensorFlow+

SFT+

RLHF+

还有更多 •••

登录查看完整学习资料

相关职位

【Hi Lab】大模型AI native算法工程师

社招1-3年大模型

1、Post-Training Pipeline 设计与迭代：搭建并持续优化 SFT、RM、RLHF / RLAIF / RLVF 等后训练流水线，支持多模态模型的高效迭代，让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全 2、可扩展监督与反馈系统：设计低成本人类 + AI 组合反馈机制，自动化完成偏好采集、对齐传递与数据质量评估，通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制 3、通用推理与工具使用能力提升：构建跨模态强化学习环境和多样化奖励体系，帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力 4、长期记忆、个性化与终身学习：探索持久记忆与动态偏好建模，使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力 5、安全评估与价值观对齐：搭建安全对齐机制、红队测试、越狱防御与自动化评测框架，量化模型幻觉、稳定性及价值观一致性，制定风险缓解策略，确保模型在开放场景中始终行为可控 6、跨职能落地：与产品、设计、人文训练师及数据团队，把研究成果迅速推向真实场景，打造小红书下一代战略级 AI native 应用产品

更新于 2025-10-23上海|北京|杭州

【Hi Lab】AI人文训练师-大模型

校招产品运营

我们寻找热爱生活、钟情于艺术与科技交融的你，加入小红书AI性格设计师team，在追求 AI 模型在技术上的有用性基础上赋予 AI 温暖与诗意，注入灵魂，让 AI 能够为世界和人类带来美好。 1、AI 的文学与艺术表达训练：精细调校 AI 的语言风格，深入分析并优化 AI 的表达中的修辞手法、叙事结构和情感节奏，确保 AI 的语言兼具艺术美感与逻辑严谨 2、提升 AI 的多元智能水平：基于广博的人文视角和跨文化理解，萃取历史、哲学及心理学中的精华思想，塑造 AI 的底层世界观、价值观、性格和行为准则，训练 AI 在艺术审美、哲学思考、同理心等方面的能力 3、构建生动的 human-AI 交互体验：关注 human-AI 交互中的每一个细节，优化 AI 在不同情境下的回答与主动表达，让它从冷冰冰的工具转变为懂得倾听和理解你心情的温柔伙伴，用美学和智慧激发用户内心共鸣

更新于 2026-02-10上海

Hi lab-Posttrain算法工程师-RLHF

社招1-3年大模型

利用强化学习方法对多模态大模型进行对齐：解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题；探索 RL 阶段 computaiton scaling 对模型能力提升的方法；研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法；基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化，提升大模型的应用价值。

更新于 2025-09-26北京|上海|杭州

Hi lab-数据采集

社招3-5年大模型

负责大模型预训练数据的全局采集策略设计，制定高效、可持续的数据获取路径，覆盖多语言、多领域、多模态数据源。构建数据需求量化体系，针对模型能力目标（如推理、代码、知识等）规划数据采集优先级与规模，确保token总量与质量满足训练需求。设计数据源发现、去重、质量评估与增量更新的自动化流程，平衡开源数据、合作数据与自采数据的应用。探索低成本、高合规性的数据获取方案，应对版权、隐私等风险，支撑团队长期数据需求。

更新于 2025-10-29北京|上海|广州