小红书ACE实习生——大模型数据采集
任职要求
• 基础要求: • 计算机相关专业本科在读,保证每周 4 天以上实习时间。 • 极客般的 Coding 能力: C++ 或 Python 功底深厚,对内存管理、并发控制有极致的追求。 • 大数据工程素养: 熟悉 Linux 生态,不仅会用,更懂得如何调试复杂的分布式任务。 • 加分项(满足任一条请直接联系): • 竞赛大神: ACM-ICPC / CCPC 金银牌选手,或 Codeforces 高分选手。(我们需要你解决 O(n) 复杂度下的海量数据去重与图算法问题) • Spark 内核玩家: 熟悉 Spark/Flink 原理,甚至阅读过源码、提交过核心模块 PR 者优先。(这里是我们的主战场) •…
工作职责
我们是公司最核心的"造脑"团队。在这里,我们掌管着 万卡级别的算力集群,致力于训练下一代千亿/万亿参数的基座模型(Base Model)。 但算力只是容器,数据才是灵魂。 作为支撑这艘万卡巨轮运转的"燃料"输送团队,我们坚信:在通往 AGI 的道路上,如果有谁能决定基座模型的知识广度,那就是掌握了互联网数据全貌的人。 我们致力于构建下一代互联网数据索引系统。我们不仅仅是信息的"淘金者",更是信息熵的"鉴赏家"。我们用极致的分布式工程手段,处理 PB 级别的全球网络数据,并通过严谨的实验闭环,为千亿参数模型提供最纯净、最高信噪比的训练语料。 【你将面临的挑战】 这不需要你从头设计 Transformer 架构,但需要你拥有驾驭海量数据的工程野心。这绝对不是一份"写写 Python 脚本抓网页"的无聊工作。我们要解决的是 "如何把整个互联网装进硬盘,并读懂它" 的终极难题: 1. 通用全网索引构建 (The "Google Index" Challenge) • 挑战目标: 这是一个重新索引互联网的工程。不局限于特定站点的爬虫,我们需要设计通用的、覆盖全网的发现与采集策略。 • 核心工作: 面对指数级膨胀的 URL 队列,设计高效的调度算法与链路分析策略,从海量垃圾中精准定位高价值信息孤岛,构建高质量的互联网快照。 2. 基于模型的智能解析 (Intelligent Parsing Pipeline) • 挑战目标: 传统的正则提取已经过时,我们要挑战数千亿网页的深度理解。 • 核心工作: 探索基于视觉/语言模型(VLM/LLM)的通用网页解析技术,像人类一样"看懂"复杂的网页布局、PDF 文档与学术论文,从中无损提取推理(Reasoning)与代码数据。你需要在 Spark 集群上优化这些算法,使其能在 PB 级数据上快速迭代。 3. 数据价值评估闭环 (Data Value Evaluation) • 挑战目标: 建立数据质量的"度量衡"。 • 核心工作: 参与基座模型的训练实验,量化不同来源数据对模型最终效果的贡献。 • 我们将给予你足够的算力支持,去验证你的数据假设。 • 你需要用客观的 Loss 曲线和评测指标(Metrics)反向指导采集策略——告诉爬虫下一台该去抓什么,而不是盲目地堆砌数量。 【我们在寻找这样的你】 我们寻找的是系统型与算法型的复合人才。我们不在乎你是否发过顶会 Paper,我们在乎你的代码在处理 100TB 数据时会不会 OOM。
大模型如 GPT 系列等,凭借其强大的语言理解和生成能力,为编程带来了新的变革。在大模型编程的实际应用里,涌现出诸多极具价值的落地场景,像代码问题的精准发现与高质量修复、代码的智能补全与生成等,这些场景切实提高了编程工作的效率与质量。 当前也普遍面临一系列亟待解决的问题与挑战: 1、怎样精准识别代码中潜藏的高质量问题,并迅速且有效地完成修复; 2、如何借助 RAG 技术等手段,精准召回相似的代码问题; 3、怎样构建更完善的评测体系,对整个编程系统以及各个应用场景进行全面且高质量的评估。 这些问题在行业内具有广泛的共性,极具研究价值。通过合作研究探寻解决方案,有望推动大模型编程领域迈向新的高度。
本课题聚焦小红书通用基座模型在真实业务 OOD 场景下的泛化性问题,围绕三个方向展开: 1)研究如何在训练阶段提升模型的 In-context Learning 与 OOD 泛化能力,包括任务抽象、数据构造、Prompt 模板改写与训练策略设计; 2)研究如何评测这些能力,建立真实 OOD 评测和面向领域任务构造的 ICL 能力评测方法,区分真正的泛化提升与同分布收益; 3)在模型固定的情况下,研究如何通过更好的 Context Engineering 提升模型在 OOD 任务上的表现。目标是沉淀可复用的训练、评测和 Context Engineering 方法,为小红书通用基座模型通过 Prompting 调用 API 更好服务业务提供支撑。
随着大型语言模型(LLMs)的快速发展,其在复杂任务中的推理效率问题日益凸显。本课题聚焦于LLMs的推理加速,旨在研究高效的Chain-of-Thought(CoT)压缩算法,以优化模型的推理过程,减少计算开销并提高响应速度,同时保持推理的准确性;同时,课题将深入分析现有LLMs的推理机制,探索如何通过算法创新来实现CoT的高效压缩。 具体研究内容包括但不限于:基于模型结构进行优化、基于推理过程进行优化、基于Prompt进行优化、以及基于数据驱动的压缩策略等。通过本课题的研究,期望能够为LLMs的高效推理提供新的理论和技术支持,推动其在更多实际场景中的广泛应用。
我们致力于构建可持续进化的 Agent 系统:让 Agent 在真实环境中通过交互、学习与数据闭环,不断提升复杂任务能力。 围绕“数据 → 学习 → 自进化”三位一体展开: - Agent 自进化: 基于真实任务轨迹与反思机制,提升 Agent 在长期交互中的自主学习能力,解决反馈建模、策略泛化与错误累积问题。 - RL for Agent Systems: 将强化学习引入 Agent 全链路(规划-执行-反馈),研究 trajectory-level reward、credit assignment 及 offline/online 混合训练。 - Agentic Data Construction: 构建由 Agent 主导的数据生产与筛选机制,形成“生成 → 评估 → 反哺”的数据闭环,持续放大模型能力。