小红书ACE实习生——大模型数据采集

校招全职大模型2025-12-24地点：北京状态：招聘

扫码手机上打开

任职要求

• 基础要求：
• 计算机相关专业本科在读，保证每周 4 天以上实习时间。
• 极客般的 Coding 能力： C++ 或 Python 功底深厚，对内存管理、并发控制有极致的追求。
• 大数据工程素养： 熟悉 Linux 生态，不仅会用，更懂得如何调试复杂的分布式任务。
• 加分项（满足任一条请直接联系）：
• 竞赛大神： ACM-ICPC / CCPC 金银牌选手，或 Codeforces 高分选手。（我们需要你解决 O(n) 复杂度下的海量数据去重与图算法问题）
• Spark 内核玩家： 熟悉 Spark/Flink 原理，甚至阅读过源码、提交过核心模块 PR 者优先。（这里是我们的主战场）
•…

登录查看完整任职要求

微信扫码，1秒登录

工作职责

我们是公司最核心的"造脑"团队。在这里，我们掌管着 万卡级别的算力集群，致力于训练下一代千亿/万亿参数的基座模型（Base Model）。
但算力只是容器，数据才是灵魂。 作为支撑这艘万卡巨轮运转的"燃料"输送团队，我们坚信：在通往 AGI 的道路上，如果有谁能决定基座模型的知识广度，那就是掌握了互联网数据全貌的人。
我们致力于构建下一代互联网数据索引系统。我们不仅仅是信息的"淘金者"，更是信息熵的"鉴赏家"。我们用极致的分布式工程手段，处理 PB 级别的全球网络数据，并通过严谨的实验闭环，为千亿参数模型提供最纯净、最高信噪比的训练语料。
【你将面临的挑战】
这不需要你从头设计 Transformer 架构，但需要你拥有驾驭海量数据的工程野心。这绝对不是一份"写写 Python 脚本抓网页"的无聊工作。我们要解决的是 "如何把整个互联网装进硬盘，并读懂它" 的终极难题：
1. 通用全网索引构建 (The "Google Index" Challenge)
• 挑战目标： 这是一个重新索引互联网的工程。不局限于特定站点的爬虫，我们需要设计通用的、覆盖全网的发现与采集策略。
• 核心工作： 面对指数级膨胀的 URL 队列，设计高效的调度算法与链路分析策略，从海量垃圾中精准定位高价值信息孤岛，构建高质量的互联网快照。
2. 基于模型的智能解析 (Intelligent Parsing Pipeline)
• 挑战目标： 传统的正则提取已经过时，我们要挑战数千亿网页的深度理解。
• 核心工作： 探索基于视觉/语言模型（VLM/LLM）的通用网页解析技术，像人类一样"看懂"复杂的网页布局、PDF 文档与学术论文，从中无损提取推理（Reasoning）与代码数据。你需要在 Spark 集群上优化这些算法，使其能在 PB 级数据上快速迭代。
3. 数据价值评估闭环 (Data Value Evaluation)
• 挑战目标： 建立数据质量的"度量衡"。
• 核心工作： 参与基座模型的训练实验，量化不同来源数据对模型最终效果的贡献。
• 我们将给予你足够的算力支持，去验证你的数据假设。
• 你需要用客观的 Loss 曲线和评测指标（Metrics）反向指导采集策略——告诉爬虫下一台该去抓什么，而不是盲目地堆砌数量。
【我们在寻找这样的你】
我们寻找的是系统型与算法型的复合人才。我们不在乎你是否发过顶会 Paper，我们在乎你的代码在处理 100TB 数据时会不会 OOM。

📮 投递简历 ✨AI模拟面试

难度：

包括英文材料

C+++

Python+

大数据+

Linux+

ICPC+

还有更多 •••

登录查看完整学习资料

相关职位

【Ace顶尖实习生】大模型在研发效能和代码域的智能化生成和Agent探索

校招测试开发

大模型如 GPT 系列等，凭借其强大的语言理解和生成能力，为编程带来了新的变革。在大模型编程的实际应用里，涌现出诸多极具价值的落地场景，像代码问题的精准发现与高质量修复、代码的智能补全与生成等，这些场景切实提高了编程工作的效率与质量。当前也普遍面临一系列亟待解决的问题与挑战： 1、怎样精准识别代码中潜藏的高质量问题，并迅速且有效地完成修复； 2、如何借助 RAG 技术等手段，精准召回相似的代码问题； 3、怎样构建更完善的评测体系，对整个编程系统以及各个应用场景进行全面且高质量的评估。这些问题在行业内具有广泛的共性，极具研究价值。通过合作研究探寻解决方案，有望推动大模型编程领域迈向新的高度。

更新于 2026-01-17北京|上海|杭州

【Ace顶尖实习生】面向大模型推理提速的CoT压缩算法研究

校招机器学习平台

随着大型语言模型（LLMs）的快速发展，其在复杂任务中的推理效率问题日益凸显。本课题聚焦于LLMs的推理加速，旨在研究高效的Chain-of-Thought（CoT）压缩算法，以优化模型的推理过程，减少计算开销并提高响应速度，同时保持推理的准确性；同时，课题将深入分析现有LLMs的推理机制，探索如何通过算法创新来实现CoT的高效压缩。具体研究内容包括但不限于：基于模型结构进行优化、基于推理过程进行优化、基于Prompt进行优化、以及基于数据驱动的压缩策略等。通过本课题的研究，期望能够为LLMs的高效推理提供新的理论和技术支持，推动其在更多实际场景中的广泛应用。

更新于 2025-11-21北京|上海|杭州

Hi Lab-【Ace顶尖实习生】探索大模型预训练更加高效的scaling效率优化

校招大模型

本课题的研究目标是研发更高效的预训练scaling效率，通过数据策略、模型结构设计(Dense, MoE, Long Context等)、初始化&优化器策略、学习范式的创新，深度理解模型的学习机制和评估方法，能够更精准的预测模型行为，并持续提升模型预训练从算力&数据到智能的转化效率。

更新于 2025-12-03北京|上海|杭州

【Ace顶尖实习生】基于大模型（LLM）的智能化质量保障技术研究与应用

校招测试开发

随着人工智能技术的快速发展，大模型在代码生成、语义理解、逻辑推理等领域展现出巨大潜力。软件质量保障作为软件工程的核心环节，传统方法存在测试用例设计效率低、场景覆盖率不足、自动化脚本维护成本高等痛点。本课题旨在联合高校科研力量与企业工程实践，探索大模型技术在测试用例生成、单元测试自动化、UI测试脚本生成等质量保障场景中的创新应用。

更新于 2025-11-21杭州|上海|北京