logo of xiaohongshu

小红书Hi lab-数据采集

社招全职3-5年大模型地点:北京 | 上海 | 广州状态:招聘

任职要求


具备数据采集/爬虫策略或大规模数据规划经验,熟悉网页、学术、公开语料等主流数据源特性与获取技术。
具备数据价值评估能力,能结合模型训练需求(如稀缺资源、长尾领域)制定数据增强策略。
熟悉数据合规与…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


负责大模型预训练数据的全局采集策略设计,制定高效、可持续的数据获取路径,覆盖多语言、多领域、多模态数据源。
构建数据需求量化体系,针对模型能力目标(如推理、代码、知识等)规划数据采集优先级与规模,确保token总量与质量满足训练需求。
设计数据源发现、去重、质量评估与增量更新的自动化流程,平衡开源数据、合作数据与自采数据的应用。
探索低成本、高合规性的数据获取方案,应对版权、隐私等风险,支撑团队长期数据需求。
包括英文材料
学历+
Java+
相关职位

logo of xiaohongshu
社招1-3年大模型

1、Post-Training Pipeline 设计与迭代:搭建并持续优化 SFT、RM、RLHF / RLAIF / RLVF 等后训练流水线,支持多模态模型的高效迭代,让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全 2、可扩展监督与反馈系统:设计低成本人类 + AI 组合反馈机制,自动化完成偏好采集、对齐传递与数据质量评估,通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制 3、通用推理与工具使用能力提升:构建跨模态强化学习环境和多样化奖励体系,帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力 4、长期记忆、个性化与终身学习:探索持久记忆与动态偏好建模,使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力 5、安全评估与价值观对齐:搭建安全对齐机制、红队测试、越狱防御与自动化评测框架,量化模型幻觉、稳定性及价值观一致性,制定风险缓解策略,确保模型在开放场景中始终行为可控 6、跨职能落地:与产品、设计、人文训练师及数据团队,把研究成果迅速推向真实场景,打造小红书下一代战略级 AI native 应用产品

更新于 2025-10-23上海|北京|杭州
logo of xiaohongshu
校招大模型

1、Post-Training Pipeline 设计与迭代:搭建并持续优化 SFT、RM、RLHF/RLAIF/ RLVF 等后训练流水线,支持多模态模型的高效迭代,让千亿级大模型在一次次“后训练”中真正变得聪明、智慧、安全; 2、可扩展监督与反馈系统:设计低成本人类 + AI 组合反馈机制,自动化完成偏好采集、对齐传递与数据质量评估,通过 Product-Research co-design 探索构建真实用户反馈的模型迭代机制; 3、通用推理与工具使用能力提升:构建跨模态强化学习环境和多样化奖励体系,帮助模型学会调用外部工具、提升模型利用文本-图像-语音跨模态信息进行复杂推理和问题解决能力; 4、长期记忆、个性化与终身学习:探索持久记忆与动态偏好建模,使模型能够跨会话记住用户偏好、持续学习而不遗忘核心能力; 5、安全评估与价值观对齐:搭建安全对齐机制、红队测试、越狱防御与自动化评测框架,量化模型幻觉、稳定性及价值观一致性,制定风险缓解策略,确保模型在开放场景中始终行为可控; 6、跨职能落地:与产品、设计、人文训练师及数据团队,把研究成果迅速推向真实场景,打造小红书下一代战略级 AI native 应用产品。

更新于 2025-09-06北京|上海
logo of xiaohongshu
社招1-3年大模型

1、建立文本和多模态数据源、数据格式解析(网页,PDF等)、数据策略、模型能力、下游任务的全链路归因能力 2、建立并持续完善的数据质量、多样性、重复度、覆盖率等评估体系,分析和量化每个维度的影响 3、针对模型核心能力进行重点强化,包括不限于数学、推理、Code、Agent、ICL、OCR等 4、探索如何使用更少数据量,达到同样模型能力的策略,持续提升per token的通用能力训练效果 5、探索基于各类策略的高质量数据生成方式,定向优化特定模型能力和为长期Scaling Law解决数据缺失问题

更新于 2025-09-15北京|上海
logo of xiaohongshu
校招大模型

本课题的研究目标是研发更高效的预训练scaling效率,通过数据策略、模型结构设计(Dense, MoE, Long Context等)、初始化&优化器策略、学习范式的创新,深度理解模型的学习机制和评估方法,能够更精准的预测模型行为,并持续提升模型预训练从算力&数据到智能的转化效率。

更新于 2025-12-03北京|上海|杭州