小红书Alignment RLHF算法工程师-hi lab

社招全职大模型2025-08-22地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

岗位要求
1. 具备扎实的机器学习基础，能熟练使用至少一种深度学习框架（e.g. PyTorch、Jax、TensorFlow、MindSpore、PaddlePaddle）。
2. 对监督学习、强化学习、表示学习等机器学习方法有深入理解并具备相关的实践经验。
3. 在 NLP/CV/RL 等至少一个 AI 领域中有过深入的研究经历，或通过机器学习算法解决过复杂业务场景问题。
4. 具…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

岗位职责：
利用强化学习方法对多模态大模型进行对齐：
解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题；
探索  RL 阶段 computaiton scaling 对模型能力提升的方法；
研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法；
基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化，提升大模型的应用价值。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

PyTorch+

TensorFlow+

PaddlePaddle+

强化学习+

NLP+

还有更多 •••

登录查看完整学习资料

相关职位

Hi lab-Posttrain算法工程师-RLHF

社招1-3年大模型

利用强化学习方法对多模态大模型进行对齐：解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题；探索 RL 阶段 computaiton scaling 对模型能力提升的方法；研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法；基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化，提升大模型的应用价值。

更新于 2025-09-26北京|上海|杭州

【REDstar】Hi Lab-Post-Training算法工程师

校招

1、Post-Training Pipeline 设计与迭代：搭建并持续优化 SFT、RM、RLHF/RLAIF/ RLVF 等后训练流水线，支持多模态模型的高效迭代，让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全； 2、可扩展监督与反馈系统：设计低成本人类 + AI 组合反馈机制，自动化完成偏好采集、对齐传递与数据质量评估，通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制； 3、通用推理与工具使用能力提升：构建跨模态强化学习环境和多样化奖励体系，帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力； 4、长期记忆、个性化与终身学习：探索持久记忆与动态偏好建模，使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力； 5、安全评估与价值观对齐：搭建安全对齐机制、红队测试、越狱防御与自动化评测框架，量化模型幻觉、稳定性及价值观一致性，制定风险缓解策略，确保模型在开放场景中始终行为可控； 6、跨职能落地：与产品、设计、人文训练师及数据团队，把研究成果迅速推向真实场景，打造小红书下一代战略级 AI native 应用产品。

更新于 2026-03-28北京|上海

【Hi Lab】大模型AI native算法工程师

社招1-3年大模型

1、Post-Training Pipeline 设计与迭代：搭建并持续优化 SFT、RM、RLHF / RLAIF / RLVF 等后训练流水线，支持多模态模型的高效迭代，让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全 2、可扩展监督与反馈系统：设计低成本人类 + AI 组合反馈机制，自动化完成偏好采集、对齐传递与数据质量评估，通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制 3、通用推理与工具使用能力提升：构建跨模态强化学习环境和多样化奖励体系，帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力 4、长期记忆、个性化与终身学习：探索持久记忆与动态偏好建模，使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力 5、安全评估与价值观对齐：搭建安全对齐机制、红队测试、越狱防御与自动化评测框架，量化模型幻觉、稳定性及价值观一致性，制定风险缓解策略，确保模型在开放场景中始终行为可控 6、跨职能落地：与产品、设计、人文训练师及数据团队，把研究成果迅速推向真实场景，打造小红书下一代战略级 AI native 应用产品

更新于 2025-10-23上海|北京|杭州

【Hi Lab】大模型AI native算法工程师（垂类）

社招大模型

更新于 2026-01-05北京|上海