蚂蚁金服研究型实习生-大模型训练语料质量评估及优化
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究 优先录用: -对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色 -在国际会议上或核心期刊发表一份或多份出版物或论文 -至少3个月的全职工作
工作职责
研究领域: 数据挖掘与内容检索 项目简介: 近年来,深度学习和人工智能技术快速发展,大模型自然语言处理在机器翻译、文本生成、情感分析等领域展现出强大能力,蚂蚁也在金融、生活、医疗领域等落地丰富的消费场景。数据作为大模型发展的三大基石之一,语料的规模、质量、多样性对模型质量起到至关重要的作用。尽管许多大模型已经相继开源,但其训练数据几乎全部闭源并视其为重要的商业机密,因此研究和建设高质数据集成为有利于提升模型精度、鲁棒性和泛化能力,是大模型发展的重要方向。 蚂蚁当前训练语料包括文本、图文和视频场景,现有方法主要依赖于人类专家制定的启发式规则来提高语料库质量,仍缺乏一个整体、多维度、易用的语料质量评估体系;此外,是否可以通过数据修复和增强等手段,剔除数据中的低质内容,提升数据多样性和代表性,从而获取更多的优质训练样本?数据质量与模型能力之间的联系如何?又如何设计统一的优化手段来增强数据质量?这些问题都是提升模型性能亟需解决的关键。
大模型借助庞大的文本语料和巨量的计算资源,展现出了惊人的性能表现。之前大量的研究工作聚焦于模型参数量、计算量以及数据总量的scaling law,忽略了模型中词汇量的大小对模型的影响。大的词汇量会提升分词的压缩比,从而提升模型的训练和推理效率,但词汇量应该增大到何种程度,以及不同规模的模型对词汇量的需求是否一致等这些关键且基础的问题仍需要进一步的探索。我们期望将相应的技术路线充分探索并加以优化以大幅提升通义千问模型的训练和推理的效率和性能。 拟解决技术问题: 研究构建高效大模型词表的方式 研究大模型词表对模型输出质量的影响 研究不同规模、不同数据下模型词表大小对模型性能的影响 研究通过词表压缩技术减少模型参数量且保持性能
研究领域: 人工智能 项目简介: 随着多模态大模型在复杂推理任务(逻辑推理、数学推导、多模态推理等)中的需求激增,高质量推理类语料的稀缺性成为模型能力提升的核心瓶颈。本项目旨在通过人工合成与优化,构建适配多场景的推理语料库,为大模型训练与评估提供高质量数据支撑。
大语言模型(LLM)是一种基于神经网络技术和海量语料库数据进行预训练的语言模型,拥有非常强大的语言理解、内容生成能力。结合检索增强生成(RAG)技术,LLM能够实时访问和整合外部知识库的信息,从而显著提高其在复杂问答和特定领域任务中的准确性和可靠性。然而,RAG方法会引入以下两种问题: 1. 额外成本(尤其是在利用搜索引擎的开放域场景下); 2. 不可避免的引入噪音,干扰大语言模型。 本项目通过识别特定LLM的知识边界,精确判断当前问题是否需要通过检索补充外部知识,降低模型幻觉。
夸克学习算法团队通过持续创新突破,提供更智能的产品体验,支撑了夸克拍照搜题、AI解题大师、批改、教育搜索等多个核心产品体验。 1. 负责大模型后训练阶段强化学习应用过程中关键问题的探索研究,持续追踪和应用领域最新技术进展; 2. 负责大模型在教育垂域的应用的解决范式和关键技术的探索研究,包括DeepReaserch,Agentic Reasoning,奖励模型建模等; 3. 负责多模态大模型预训练、跨模态对齐、推理等领域的关键问题的探索和研究,包括视觉编码器、视觉推理等、多模态语料构建方法等; 4. 基于研究成果撰写高质量学术论文,积极参与业界交流活动,建立和维护学术界与产业界的合作关系。 你将与行业顶尖算法工程师一对一组队,共同挑战前沿问题。你的工作成果将服务千万级用户,影响大模型应用在教育垂域的发展走向。 在推动相关技术落地业务的同时,鼓励其深耕兼具原创性与实用性的算法创新,共同完成高水平论文发表。