小红书【hi lab】Posttrain算法工程师-RLHF

社招全职1-3年大模型2026-01-14地点：北京 | 上海状态：招聘

扫码手机上打开

任职要求

1. 具备扎实的机器学习基础，能熟练使用至少一种深度学习框架（e.g. PyTorch、Jax、TensorFlow、MindSpore、PaddlePaddle）。
2. 对监督学习、强化学习、表示学习等机器学习方法有深入理解…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

1.利用强化学习方法对多模态大模型进行对齐：
2.解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题；
3.探索  RL 阶段 computaiton scaling 对模型能力提升的方法；
4.研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法；
5.基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化，提升大模型的应用价值。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

机器学习+

深度学习+

PyTorch+

JAX+

还有更多 •••

登录查看完整学习资料

相关职位

【hi lab】Posttrain全模态算法工程师-语音

社招3-5年大模型

你将参与到小红书下一代 AI native 应用的构建中，通过 Omni Model 技术改变现有 AI 以文字交互为主的形态，负责全模态大模型（Omni Model）的后训练工作，主导音频与文本、视觉协同对齐的整体方案设计与落地，包括并不限于： 1、制定并迭代音频-文本-视觉对齐数据体系，与数据团队合作构建高质量、多样化、有审美的跨模态数据，并提升端到端模型的语音理解和表达能力。 2、基于 SOTA omni 基座模型，在语音、视觉、文本长序列混合后训练中，通过多种训练方法保证语音能力充分发挥的同时，又不削弱模型智商与图文表现。 3、构建语音质量与语义一致性的 Reward 模型；通过 RLHF/RLAIF/Self-Rewarding 以及 Session level RL 技术提升模型在实时对话中的语义、情绪理解能力，语音表达的自然度、逻辑一致性。 4、与工程、产品团队协同，把实验成果快速迁移到线上服务，并探索基于线上用户的语音交互反馈实现在线 RL 迭代提升。

更新于 2025-09-15北京|上海

Hi lab-Posttrain算法工程师-RLHF

社招1-3年大模型

利用强化学习方法对多模态大模型进行对齐：解决优化现有多模态大模型 RLHF 中的训练效果、稳定性、Reward Hacking 等问题；探索 RL 阶段 computaiton scaling 对模型能力提升的方法；研究 Multi-Agent、Long-term Objective、Scalable Oversight 等方向下基于强化学习的对齐方法；基于前沿方法对幻觉、推理、工具使用、安全等场景问题进行针对性优化，提升大模型的应用价值。

更新于 2025-09-26北京|上海|杭州

UI设计实习生

实习网易有道

1. 参与有道业务的UI设计工作，为新功能、新产品提供创意及设计方案； 2. 参与产品讨论，与产品经理、工程师协作，从视觉设计和用户体验的角度提出建议与解决方案； 3. 全面跟进产研流程，与产品、研发、测试团队紧密协作，跟进设计方案落地，保证设计方案高度还原。 4. 续关注设计趋势，主动挖掘视觉/体验问题，提出改进建议，提升产品设计品质。

更新于 2025-06-18北京

【hi lab】大模型高性能计算AI infra工程师-训练/推理/模型轻量化

社招3-5年大模型

【训练推理框架研发】大模型hi lab AI Infra团队专注于大语言模型领域的前沿技术研究和落地，提供高性能、高可靠、可扩展的机器学习系统、丰富的异构计算资源和极致的端到端的机器学习服务体验，为公司提供核心技术能力和服务。 1、负责机器学习框架的研究与开发，服务于公司各个产品； 2、高效部署，优化NLP/多模态大模型核心业务模型；【轻量化】机器学习系统团队需要将传统或者新型的轻量化算法和工程有机结合起来进行加速，提高大语言模型训练或者推理性能的同时，通过算法手段尽可能降低效果损失。候选人将在以下几个方向进行深入探索和落地： 1、量化方向：负责但不限于大语言模型的低精度训练(FP8)、推理（W8A8KV8等）、低精度优化器（量化梯度、优化器状态、参数等） 2、高性能模型结构：大语言模型Finetune或者其他阶段的LoRA系列（熟悉各种变种），训练阶段的MQA/GQA系列等 3、稀疏化方向：大语言模型剪枝、稀疏、蒸馏、Sparse Attention等 4、新型方向：Medusa、超长文本、Speculative Sampling等

更新于 2025-09-15北京|上海