logo of xiaohongshu

小红书ACE实习生——大模型数据采集

校招全职大模型地点:北京状态:招聘

任职要求


• 基础要求:
• 计算机相关专业本科在读,保证每周 4 天以上实习时间。
• 极客般的 Coding 能力: C++Python 功底深厚,对内存管理、并发控制有极致的追求。
• 大数据工程素养: 熟悉 Linux 生态,不仅会用,更懂得如何调试复杂的分布式任务。
• 加分项(满足任一条请直接联系):
• 竞赛大神: ACM-ICPC / CCPC 金银牌选手,或 Codeforces 高分选手。(我们需要你解决 O(n) 复杂度下的海量数据去重与图算法问题)
• Spark 内核玩家: 熟悉 Spark/Flink 原理,甚至阅读过源码、提交过核心模块 PR 者优先。(这里是我们的主战场)
•…
登录查看完整任职要求
微信扫码,1秒登录

工作职责


我们是公司最核心的"造脑"团队。在这里,我们掌管着 万卡级别的算力集群,致力于训练下一代千亿/万亿参数的基座模型(Base Model)。
但算力只是容器,数据才是灵魂。 作为支撑这艘万卡巨轮运转的"燃料"输送团队,我们坚信:在通往 AGI 的道路上,如果有谁能决定基座模型的知识广度,那就是掌握了互联网数据全貌的人。
我们致力于构建下一代互联网数据索引系统。我们不仅仅是信息的"淘金者",更是信息熵的"鉴赏家"。我们用极致的分布式工程手段,处理 PB 级别的全球网络数据,并通过严谨的实验闭环,为千亿参数模型提供最纯净、最高信噪比的训练语料。
【你将面临的挑战】
这不需要你从头设计 Transformer 架构,但需要你拥有驾驭海量数据的工程野心。这绝对不是一份"写写 Python 脚本抓网页"的无聊工作。我们要解决的是 "如何把整个互联网装进硬盘,并读懂它" 的终极难题:
1. 通用全网索引构建 (The "Google Index" Challenge)
• 挑战目标: 这是一个重新索引互联网的工程。不局限于特定站点的爬虫,我们需要设计通用的、覆盖全网的发现与采集策略。
• 核心工作: 面对指数级膨胀的 URL 队列,设计高效的调度算法与链路分析策略,从海量垃圾中精准定位高价值信息孤岛,构建高质量的互联网快照。
2. 基于模型的智能解析 (Intelligent Parsing Pipeline)
• 挑战目标: 传统的正则提取已经过时,我们要挑战数千亿网页的深度理解。
• 核心工作: 探索基于视觉/语言模型(VLM/LLM)的通用网页解析技术,像人类一样"看懂"复杂的网页布局、PDF 文档与学术论文,从中无损提取推理(Reasoning)与代码数据。你需要在 Spark 集群上优化这些算法,使其能在 PB 级数据上快速迭代。
3. 数据价值评估闭环 (Data Value Evaluation)
• 挑战目标: 建立数据质量的"度量衡"。
• 核心工作: 参与基座模型的训练实验,量化不同来源数据对模型最终效果的贡献。
• 我们将给予你足够的算力支持,去验证你的数据假设。
• 你需要用客观的 Loss 曲线和评测指标(Metrics)反向指导采集策略——告诉爬虫下一台该去抓什么,而不是盲目地堆砌数量。
【我们在寻找这样的你】
我们寻找的是系统型与算法型的复合人才。我们不在乎你是否发过顶会 Paper,我们在乎你的代码在处理 100TB 数据时会不会 OOM。
包括英文材料
C+++
Python+
大数据+
Linux+
ICPC+
还有更多 •••
相关职位

logo of xiaohongshu
实习测试开发

大模型如 GPT 系列等,凭借其强大的语言理解和生成能力,为编程带来了新的变革。在大模型编程的实际应用里,涌现出诸多极具价值的落地场景,像代码问题的精准发现与高质量修复、代码的智能补全与生成等,这些场景切实提高了编程工作的效率与质量。 当前也普遍面临一系列亟待解决的问题与挑战: 1、怎样精准识别代码中潜藏的高质量问题,并迅速且有效地完成修复; 2、如何借助 RAG 技术等手段,精准召回相似的代码问题; 3、怎样构建更完善的评测体系,对整个编程系统以及各个应用场景进行全面且高质量的评估。 这些问题在行业内具有广泛的共性,极具研究价值。通过合作研究探寻解决方案,有望推动大模型编程领域迈向新的高度。

更新于 2025-07-19北京|上海|杭州
logo of xiaohongshu
校招机器学习平台

随着大型语言模型(LLMs)的快速发展,其在复杂任务中的推理效率问题日益凸显。本课题聚焦于LLMs的推理加速,旨在研究高效的Chain-of-Thought(CoT)压缩算法,以优化模型的推理过程,减少计算开销并提高响应速度,同时保持推理的准确性;同时,课题将深入分析现有LLMs的推理机制,探索如何通过算法创新来实现CoT的高效压缩。 具体研究内容包括但不限于:基于模型结构进行优化、基于推理过程进行优化、基于Prompt进行优化、以及基于数据驱动的压缩策略等。通过本课题的研究,期望能够为LLMs的高效推理提供新的理论和技术支持,推动其在更多实际场景中的广泛应用。

更新于 2025-11-21北京|上海|杭州
logo of xiaohongshu
校招大模型

本课题的研究目标是研发更高效的预训练scaling效率,通过数据策略、模型结构设计(Dense, MoE, Long Context等)、初始化&优化器策略、学习范式的创新,深度理解模型的学习机制和评估方法,能够更精准的预测模型行为,并持续提升模型预训练从算力&数据到智能的转化效率。

更新于 2025-12-03北京|上海|杭州
logo of xiaohongshu
校招测试开发

随着人工智能技术的快速发展,大模型在代码生成、语义理解、逻辑推理等领域展现出巨大潜力。软件质量保障作为软件工程的核心环节,传统方法存在测试用例设计效率低、场景覆盖率不足、自动化脚本维护成本高等痛点。 本课题旨在联合高校科研力量与企业工程实践,探索大模型技术在测试用例生成、单元测试自动化、UI测试脚本生成等质量保障场景中的创新应用。

更新于 2025-11-21杭州|上海|北京