小红书ACE实习生——大模型数据采集
任职要求
• 基础要求: • 计算机相关专业本科在读,保证每周 4 天以上实习时间。 • 极客般的 Coding 能力: C++ 或 Python 功底深厚,对内存管理、并发控制有极致的追求。 • 大数据工程素养: 熟悉 Linux 生态,不仅会用,更懂得如何调试复杂的分布式任务。 • 加分项(满足任一条请直接联系): • 竞赛大神: ACM-ICPC / CCPC 金银牌选手,或 Codeforces 高分选手。(我们需要你解决 O(n) 复杂度下的海量数据去重与图算法问题) • Spark 内核玩家: 熟悉 Spark/Flink 原理,甚至阅读过源码、提交过核心模块 PR 者优先。(这里是我们的主战场) •…
工作职责
我们是公司最核心的"造脑"团队。在这里,我们掌管着 万卡级别的算力集群,致力于训练下一代千亿/万亿参数的基座模型(Base Model)。 但算力只是容器,数据才是灵魂。 作为支撑这艘万卡巨轮运转的"燃料"输送团队,我们坚信:在通往 AGI 的道路上,如果有谁能决定基座模型的知识广度,那就是掌握了互联网数据全貌的人。 我们致力于构建下一代互联网数据索引系统。我们不仅仅是信息的"淘金者",更是信息熵的"鉴赏家"。我们用极致的分布式工程手段,处理 PB 级别的全球网络数据,并通过严谨的实验闭环,为千亿参数模型提供最纯净、最高信噪比的训练语料。 【你将面临的挑战】 这不需要你从头设计 Transformer 架构,但需要你拥有驾驭海量数据的工程野心。这绝对不是一份"写写 Python 脚本抓网页"的无聊工作。我们要解决的是 "如何把整个互联网装进硬盘,并读懂它" 的终极难题: 1. 通用全网索引构建 (The "Google Index" Challenge) • 挑战目标: 这是一个重新索引互联网的工程。不局限于特定站点的爬虫,我们需要设计通用的、覆盖全网的发现与采集策略。 • 核心工作: 面对指数级膨胀的 URL 队列,设计高效的调度算法与链路分析策略,从海量垃圾中精准定位高价值信息孤岛,构建高质量的互联网快照。 2. 基于模型的智能解析 (Intelligent Parsing Pipeline) • 挑战目标: 传统的正则提取已经过时,我们要挑战数千亿网页的深度理解。 • 核心工作: 探索基于视觉/语言模型(VLM/LLM)的通用网页解析技术,像人类一样"看懂"复杂的网页布局、PDF 文档与学术论文,从中无损提取推理(Reasoning)与代码数据。你需要在 Spark 集群上优化这些算法,使其能在 PB 级数据上快速迭代。 3. 数据价值评估闭环 (Data Value Evaluation) • 挑战目标: 建立数据质量的"度量衡"。 • 核心工作: 参与基座模型的训练实验,量化不同来源数据对模型最终效果的贡献。 • 我们将给予你足够的算力支持,去验证你的数据假设。 • 你需要用客观的 Loss 曲线和评测指标(Metrics)反向指导采集策略——告诉爬虫下一台该去抓什么,而不是盲目地堆砌数量。 【我们在寻找这样的你】 我们寻找的是系统型与算法型的复合人才。我们不在乎你是否发过顶会 Paper,我们在乎你的代码在处理 100TB 数据时会不会 OOM。
本课题的研究目标是优化AI与人类的多模态交互体验,通过研发能够融合文本、视觉和语音等多种模态的自然交互机制,使AI系统能够通过理解图像内容、语音语调和情感等非文本信息增强交互效果。 研究将探索情境感知与个性化适应技术、多轮多模态交互中的意图理解与记忆保持能力,以及跨模态信息的整合与表达方式,使AI系统能够更好地理解用户通过不同感知通道传达的需求,提供视觉和语音层面的情感共鸣,并在长期多模态交互中不断适应用户偏好,实现更加流畅、高效且人性化的人机协作。
本研究方向探索如何使AI系统获得持久记忆与持续学习能力,从根本上改变人机交互的本质。当前AI模型通常缺乏跨会话的记忆保持和经验积累,难以形成对用户的深度理解。我们致力于构建能够记住互动历史、理解个人背景并随时间成长的AI系统,使其不仅能回忆与特定用户的共同经历,还能从这些经历中学习并适应。 研究将关注记忆形成与提取的认知机制、个性化交互模式的动态调整,以及知识持续更新而不遗忘核心能力的平衡策略。这一方向的突破将推动AI从单一功能工具向能够建立长期关系的智能伙伴转变,为未来AI系统打开全新的应用场景和交互范式,使人机协作更加自然、高效且个性化。
本研究方向聚焦于构建兼具强大能力与安全保障的AI系统,确保技术发展与人类价值观保持一致。随着AI能力边界不断扩展,系统性评估其安全性与行为边界变得至关重要。 研究将开发先进的红队测试方法,通过模拟各类攻击场景揭示模型弱点;建立抵御"越狱"尝试的防御机制,使AI在面对误导性指令时维持适当行为;探索价值观对齐技术,使AI能理解并遵循复杂的社会规范与伦理准则。研发量化评估框架,客观衡量AI系统的安全性与符合预期的程度。这一方向旨在构建真正可信赖的人工智能,使其能在发挥最大潜能的同时,始终将人类福祉置于核心位置,为负责任的AI发展提供技术保障。