logo of xiaohongshu

小红书【Hi Lab】大模型AI native算法工程师

社招全职1-3年大模型地点:上海 | 北京 | 杭州状态:招聘

任职要求


1、扎实机器学习深度学习基础,熟练掌握 PyTorch / JAX / TensorFlow 等任一框架
2、熟悉后训练常用技术(SFTRLHF / DPO / RLAIF 等)或具备相关项目 / 竞赛 / 论文经验
3、具备 实验设计与问题定位能力,能独立分析大模型在不同数据分布和任务场景下的表现
4、善于沟通和…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


1、Post-Training Pipeline 设计与迭代:搭建并持续优化 SFT、RM、RLHF / RLAIF / RLVF 等后训练流水线,支持多模态模型的高效迭代,让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全
2、可扩展监督与反馈系统:设计低成本人类 + AI 组合反馈机制,自动化完成偏好采集、对齐传递与数据质量评估,通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制
3、通用推理与工具使用能力提升:构建跨模态强化学习环境和多样化奖励体系,帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力
4、长期记忆、个性化与终身学习:探索持久记忆与动态偏好建模,使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力
5、安全评估与价值观对齐:搭建安全对齐机制、红队测试、越狱防御与自动化评测框架,量化模型幻觉、稳定性及价值观一致性,制定风险缓解策略,确保模型在开放场景中始终行为可控
6、跨职能落地:与产品、设计、人文训练师及数据团队,把研究成果迅速推向真实场景,打造小红书下一代战略级 AI native 应用产品
包括英文材料
机器学习+
深度学习+
PyTorch+
JAX+
TensorFlow+
SFT+
RLHF+
还有更多 •••
相关职位

logo of xiaohongshu
社招大模型

1、Post-Training Pipeline 设计与迭代:搭建并持续优化 SFT、RM、RLHF / RLAIF / RLVF 等后训练流水线,支持多模态模型的高效迭代,让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全 2、可扩展监督与反馈系统:设计低成本人类 + AI 组合反馈机制,自动化完成偏好采集、对齐传递与数据质量评估,通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制 3、通用推理与工具使用能力提升:构建跨模态强化学习环境和多样化奖励体系,帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力 4、长期记忆、个性化与终身学习:探索持久记忆与动态偏好建模,使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力 5、安全评估与价值观对齐:搭建安全对齐机制、红队测试、越狱防御与自动化评测框架,量化模型幻觉、稳定性及价值观一致性,制定风险缓解策略,确保模型在开放场景中始终行为可控 6、跨职能落地:与产品、设计、人文训练师及数据团队,把研究成果迅速推向真实场景,打造小红书下一代战略级 AI native 应用产品

更新于 2026-01-05北京|上海
logo of xiaohongshu
社招3-5年大模型

你将参与到小红书下一代 AI native 应用的构建中,通过 Omni Model 技术改变现有 AI 以文字交互为主的形态,负责全模态大模型(Omni Model)的后训练工作,主导音频与文本、视觉协同对齐的整体方案设计与落地,包括并不限于: 1、制定并迭代音频-文本-视觉对齐数据体系,与数据团队合作构建高质量、多样化、有审美的跨模态数据,并提升端到端模型的语音理解和表达能力。 2、基于 SOTA omni 基座模型,在语音、视觉、文本长序列混合后训练中,通过多种训练方法保证语音能力充分发挥的同时,又不削弱模型智商与图文表现。 3、构建语音质量与语义一致性的 Reward 模型;通过 RLHF/RLAIF/Self-Rewarding 以及 Session level RL 技术提升模型在实时对话中的语义、情绪理解能力,语音表达的自然度、逻辑一致性。 4、与工程、产品团队协同,把实验成果快速迁移到线上服务,并探索基于线上用户的语音交互反馈实现在线 RL 迭代提升。

更新于 2025-09-15北京|上海
logo of xiaohongshu
校招

1、Post-Training Pipeline 设计与迭代:搭建并持续优化 SFT、RM、RLHF/RLAIF/ RLVF 等后训练流水线,支持多模态模型的高效迭代,让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全; 2、可扩展监督与反馈系统:设计低成本人类 + AI 组合反馈机制,自动化完成偏好采集、对齐传递与数据质量评估,通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制; 3、通用推理与工具使用能力提升:构建跨模态强化学习环境和多样化奖励体系,帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力; 4、长期记忆、个性化与终身学习:探索持久记忆与动态偏好建模,使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力; 5、安全评估与价值观对齐:搭建安全对齐机制、红队测试、越狱防御与自动化评测框架,量化模型幻觉、稳定性及价值观一致性,制定风险缓解策略,确保模型在开放场景中始终行为可控; 6、跨职能落地:与产品、设计、人文训练师及数据团队,把研究成果迅速推向真实场景,打造小红书下一代战略级 AI native 应用产品。

更新于 2026-03-28北京|上海
logo of netease
实习网易有道

1. 参与有道业务的UI设计工作,为新功能、新产品提供创意及设计方案; 2. 参与产品讨论,与产品经理、工程师协作,从视觉设计和用户体验的角度提出建议与解决方案; 3. 全面跟进产研流程,与产品、研发、测试团队紧密协作,跟进设计方案落地,保证设计方案高度还原。 4. 续关注设计趋势,主动挖掘视觉/体验问题,提出改进建议,提升产品设计品质。

更新于 2025-06-18北京