小红书【Hi Lab】大模型AI native算法工程师
任职要求
1、扎实机器学习与深度学习基础,熟练掌握 PyTorch / JAX / TensorFlow 等任一框架 2、熟悉后训练常用技术(SFT、RLHF / DPO / RLAIF 等)或具备相关项目 / 竞赛 / 论文经验 3、具备 实验设计与问题定位能力,能独立分析大模型在不同数据分布和任务场景下的表现 4、善于沟通和…
工作职责
1、Post-Training Pipeline 设计与迭代:搭建并持续优化 SFT、RM、RLHF / RLAIF / RLVF 等后训练流水线,支持多模态模型的高效迭代,让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全 2、可扩展监督与反馈系统:设计低成本人类 + AI 组合反馈机制,自动化完成偏好采集、对齐传递与数据质量评估,通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制 3、通用推理与工具使用能力提升:构建跨模态强化学习环境和多样化奖励体系,帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力 4、长期记忆、个性化与终身学习:探索持久记忆与动态偏好建模,使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力 5、安全评估与价值观对齐:搭建安全对齐机制、红队测试、越狱防御与自动化评测框架,量化模型幻觉、稳定性及价值观一致性,制定风险缓解策略,确保模型在开放场景中始终行为可控 6、跨职能落地:与产品、设计、人文训练师及数据团队,把研究成果迅速推向真实场景,打造小红书下一代战略级 AI native 应用产品
1、Post-Training Pipeline 设计与迭代:搭建并持续优化 SFT、RM、RLHF / RLAIF / RLVF 等后训练流水线,支持多模态模型的高效迭代,让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全 2、可扩展监督与反馈系统:设计低成本人类 + AI 组合反馈机制,自动化完成偏好采集、对齐传递与数据质量评估,通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制 3、通用推理与工具使用能力提升:构建跨模态强化学习环境和多样化奖励体系,帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力 4、长期记忆、个性化与终身学习:探索持久记忆与动态偏好建模,使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力 5、安全评估与价值观对齐:搭建安全对齐机制、红队测试、越狱防御与自动化评测框架,量化模型幻觉、稳定性及价值观一致性,制定风险缓解策略,确保模型在开放场景中始终行为可控 6、跨职能落地:与产品、设计、人文训练师及数据团队,把研究成果迅速推向真实场景,打造小红书下一代战略级 AI native 应用产品
你将参与到小红书下一代 AI native 应用的构建中,通过 Omni Model 技术改变现有 AI 以文字交互为主的形态,负责全模态大模型(Omni Model)的后训练工作,主导音频与文本、视觉协同对齐的整体方案设计与落地,包括并不限于: 1、制定并迭代音频-文本-视觉对齐数据体系,与数据团队合作构建高质量、多样化、有审美的跨模态数据,并提升端到端模型的语音理解和表达能力。 2、基于 SOTA omni 基座模型,在语音、视觉、文本长序列混合后训练中,通过多种训练方法保证语音能力充分发挥的同时,又不削弱模型智商与图文表现。 3、构建语音质量与语义一致性的 Reward 模型;通过 RLHF/RLAIF/Self-Rewarding 以及 Session level RL 技术提升模型在实时对话中的语义、情绪理解能力,语音表达的自然度、逻辑一致性。 4、与工程、产品团队协同,把实验成果快速迁移到线上服务,并探索基于线上用户的语音交互反馈实现在线 RL 迭代提升。
1、Post-Training Pipeline 设计与迭代:搭建并持续优化 SFT、RM、RLHF/RLAIF/ RLVF 等后训练流水线,支持多模态模型的高效迭代,让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全; 2、可扩展监督与反馈系统:设计低成本人类 + AI 组合反馈机制,自动化完成偏好采集、对齐传递与数据质量评估,通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制; 3、通用推理与工具使用能力提升:构建跨模态强化学习环境和多样化奖励体系,帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力; 4、长期记忆、个性化与终身学习:探索持久记忆与动态偏好建模,使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力; 5、安全评估与价值观对齐:搭建安全对齐机制、红队测试、越狱防御与自动化评测框架,量化模型幻觉、稳定性及价值观一致性,制定风险缓解策略,确保模型在开放场景中始终行为可控; 6、跨职能落地:与产品、设计、人文训练师及数据团队,把研究成果迅速推向真实场景,打造小红书下一代战略级 AI native 应用产品。