logo of xiaohongshu

小红书【hi lab】Posttrain算法工程师-RLHF

社招全职1-3年大模型地点:北京 | 上海状态:招聘

任职要求


1. 具备扎实的机器学习基础,能熟练使用至少一种深度学习框架(e.g. PyTorchJax、TensorFlow、MindSpore、PaddlePaddle)。
2. 对监督学习、强化学习、表示学习等机器学习方法有深入理解…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1.利用强化学习方法对多模态大模型进行对齐:
2.解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题;
3.探索  RL 阶段 computaiton scaling 对模型能力提升的方法;
4.研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法;
5.基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值。
包括英文材料
机器学习+
深度学习+
PyTorch+
JAX+
还有更多 •••
相关职位

logo of xiaohongshu
社招1-3年大模型

利用强化学习方法对多模态大模型进行对齐: 解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题; 探索 RL 阶段 computaiton scaling 对模型能力提升的方法; 研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法; 基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化,提升大模型的应用价值。

更新于 2025-09-26北京|上海|杭州
logo of xiaohongshu
社招3-5年大模型

你将参与到小红书下一代 AI native 应用的构建中,通过 Omni Model 技术改变现有 AI 以文字交互为主的形态,负责全模态大模型(Omni Model)的后训练工作,主导音频与文本、视觉协同对齐的整体方案设计与落地,包括并不限于: 1、制定并迭代音频-文本-视觉对齐数据体系,与数据团队合作构建高质量、多样化、有审美的跨模态数据,并提升端到端模型的语音理解和表达能力。 2、基于 SOTA omni 基座模型,在语音、视觉、文本长序列混合后训练中,通过多种训练方法保证语音能力充分发挥的同时,又不削弱模型智商与图文表现。 3、构建语音质量与语义一致性的 Reward 模型;通过 RLHF/RLAIF/Self-Rewarding 以及 Session level RL 技术提升模型在实时对话中的语义、情绪理解能力,语音表达的自然度、逻辑一致性。 4、与工程、产品团队协同,把实验成果快速迁移到线上服务,并探索基于线上用户的语音交互反馈实现在线 RL 迭代提升。

更新于 2025-09-15北京|上海
logo of xiaohongshu
社招1-3年大模型

利用多种方法获得效果、 Robustness、Uncertainty校准都足够好的 Reward Model 1、RM标注策略优化,包括但不限于迭代标注策略、AI标注策略等,探究数据和模型性能的关系; 2、研发fine-grained reward modeling,对幻觉、推理、数学等场景进行针对性优化; 3、探索 PMP、Reference、Tool-Augmented、RM+CoT等对现有方法的改进,探索language-based RM以提高可解释性及鲁棒性; 4、研究Self-Rewarding、Self-Crituqing、Scalable Oversight等方向下的对齐技术,探索LLM booststrap的技术路径。

更新于 2026-02-02上海|北京
logo of xiaohongshu
社招3-5年大模型

利用多种方法获得效果、 Robustness、Uncertainty校准都足够好的 Reward Model 1、RM标注策略优化,包括但不限于迭代标注策略、AI标注策略等,探究数据和模型性能的关系; 2、研发fine-grained reward modeling,对幻觉、推理、数学等场景进行针对性优化; 3、探索 PMP、Reference、Tool-Augmented、RM+CoT等对现有方法的改进,探索language-based RM以提高可解释性及鲁棒性; 4、研究Self-Rewarding、Self-Crituqing、Scalable Oversight等方向下的对齐技术,探索LLM booststrap的技术路径。

更新于 2025-09-16北京|上海