小红书ACE实习生——大模型数据采集
校招全职大模型地点:北京状态:招聘
任职要求
• 基础要求: • 计算机相关专业本科在读,保证每周 4 天以上实习时间。 • 极客般的 Coding 能力: C++ 或 Python 功底深厚,对内存管理、并发控制有极致的追求。 • 大数据工程素养: 熟悉 Linux 生态,不仅会用,更懂得如何调试复杂的分布式任务。 • 加分项(满足任一条请直接联系): • 竞赛大神: ACM-ICPC / CCPC 金银牌选手,或 Codeforces 高分选手。(我们需要你解决 O(n) 复杂度下的海量数据去重与图算法问题) • Spark 内核玩家: 熟悉 Spark/Flink 原理,甚至阅读过源码、提交过核心模块 PR 者优先。(这里是我们的主战场) •…
登录查看完整任职要求
微信扫码,1秒登录
工作职责
我们是公司最核心的"造脑"团队。在这里,我们掌管着 万卡级别的算力集群,致力于训练下一代千亿/万亿参数的基座模型(Base Model)。 但算力只是容器,数据才是灵魂。 作为支撑这艘万卡巨轮运转的"燃料"输送团队,我们坚信:在通往 AGI 的道路上,如果有谁能决定基座模型的知识广度,那就是掌握了互联网数据全貌的人。 我们致力于构建下一代互联网数据索引系统。我们不仅仅是信息的"淘金者",更是信息熵的"鉴赏家"。我们用极致的分布式工程手段,处理 PB 级别的全球网络数据,并通过严谨的实验闭环,为千亿参数模型提供最纯净、最高信噪比的训练语料。 【你将面临的挑战】 这不需要你从头设计 Transformer 架构,但需要你拥有驾驭海量数据的工程野心。这绝对不是一份"写写 Python 脚本抓网页"的无聊工作。我们要解决的是 "如何把整个互联网装进硬盘,并读懂它" 的终极难题: 1. 通用全网索引构建 (The "Google Index" Challenge) • 挑战目标: 这是一个重新索引互联网的工程。不局限于特定站点的爬虫,我们需要设计通用的、覆盖全网的发现与采集策略。 • 核心工作: 面对指数级膨胀的 URL 队列,设计高效的调度算法与链路分析策略,从海量垃圾中精准定位高价值信息孤岛,构建高质量的互联网快照。 2. 基于模型的智能解析 (Intelligent Parsing Pipeline) • 挑战目标: 传统的正则提取已经过时,我们要挑战数千亿网页的深度理解。 • 核心工作: 探索基于视觉/语言模型(VLM/LLM)的通用网页解析技术,像人类一样"看懂"复杂的网页布局、PDF 文档与学术论文,从中无损提取推理(Reasoning)与代码数据。你需要在 Spark 集群上优化这些算法,使其能在 PB 级数据上快速迭代。 3. 数据价值评估闭环 (Data Value Evaluation) • 挑战目标: 建立数据质量的"度量衡"。 • 核心工作: 参与基座模型的训练实验,量化不同来源数据对模型最终效果的贡献。 • 我们将给予你足够的算力支持,去验证你的数据假设。 • 你需要用客观的 Loss 曲线和评测指标(Metrics)反向指导采集策略——告诉爬虫下一台该去抓什么,而不是盲目地堆砌数量。 【我们在寻找这样的你】 我们寻找的是系统型与算法型的复合人才。我们不在乎你是否发过顶会 Paper,我们在乎你的代码在处理 100TB 数据时会不会 OOM。
包括英文材料
C+++
https://www.learncpp.com/
LearnCpp.com is a free website devoted to teaching you how to program in modern C++.
https://www.youtube.com/watch?v=ZzaPdXTrSb8
Python+
https://liaoxuefeng.com/books/python/introduction/index.html
中文,免费,零起点,完整示例,基于最新的Python 3版本。
https://www.learnpython.org/
a free interactive Python tutorial for people who want to learn Python, fast.
https://www.youtube.com/watch?v=K5KVEU3aaeQ
Master Python from scratch 🚀 No fluff—just clear, practical coding skills to kickstart your journey!
https://www.youtube.com/watch?v=rfscVS0vtbw
This course will give you a full introduction into all of the core concepts in python.
大数据+
https://www.youtube.com/watch?v=bAyrObl7TYE
https://www.youtube.com/watch?v=H4bf_uuMC-g
With all this talk of Big Data, we got Rebecca Tickle to explain just what makes data into Big Data.
Linux+
https://ryanstutorials.net/linuxtutorial/
Ok, so you want to learn how to use the Bash command line interface (terminal) on Unix/Linux.
https://ubuntu.com/tutorials/command-line-for-beginners
The Linux command line is a text interface to your computer.
https://www.youtube.com/watch?v=6WatcfENsOU
In this Linux crash course, you will learn the fundamental skills and tools you need to become a proficient Linux system administrator.
https://www.youtube.com/watch?v=v392lEyM29A
Never fear the command line again, make it fear you.
https://www.youtube.com/watch?v=ZtqBQ68cfJc
ICPC+
https://icpc.global/
The International Collegiate Programming Contest is an algorithmic programming contest for college students.
还有更多 •••
相关职位
实习测试开发
大模型如 GPT 系列等,凭借其强大的语言理解和生成能力,为编程带来了新的变革。在大模型编程的实际应用里,涌现出诸多极具价值的落地场景,像代码问题的精准发现与高质量修复、代码的智能补全与生成等,这些场景切实提高了编程工作的效率与质量。 当前也普遍面临一系列亟待解决的问题与挑战: 1、怎样精准识别代码中潜藏的高质量问题,并迅速且有效地完成修复; 2、如何借助 RAG 技术等手段,精准召回相似的代码问题; 3、怎样构建更完善的评测体系,对整个编程系统以及各个应用场景进行全面且高质量的评估。 这些问题在行业内具有广泛的共性,极具研究价值。通过合作研究探寻解决方案,有望推动大模型编程领域迈向新的高度。
更新于 2025-07-19北京|上海|杭州
校招机器学习平台
随着大型语言模型(LLMs)的快速发展,其在复杂任务中的推理效率问题日益凸显。本课题聚焦于LLMs的推理加速,旨在研究高效的Chain-of-Thought(CoT)压缩算法,以优化模型的推理过程,减少计算开销并提高响应速度,同时保持推理的准确性;同时,课题将深入分析现有LLMs的推理机制,探索如何通过算法创新来实现CoT的高效压缩。 具体研究内容包括但不限于:基于模型结构进行优化、基于推理过程进行优化、基于Prompt进行优化、以及基于数据驱动的压缩策略等。通过本课题的研究,期望能够为LLMs的高效推理提供新的理论和技术支持,推动其在更多实际场景中的广泛应用。
更新于 2025-11-21北京|上海|杭州
校招大模型
本课题的研究目标是研发更高效的预训练scaling效率,通过数据策略、模型结构设计(Dense, MoE, Long Context等)、初始化&优化器策略、学习范式的创新,深度理解模型的学习机制和评估方法,能够更精准的预测模型行为,并持续提升模型预训练从算力&数据到智能的转化效率。
更新于 2025-12-03北京|上海|杭州