蚂蚁金服研究型实习生-金融领域的多模态安全大模型
任职要求
研究领域: -目前正在攻读计算机科学或相关STEM领域的学士,硕士或博士学位 -具有一种或多种通用编程语言的经验,包括但不限于: Java,C/C ++ 、Python、JavaScript或Go -具有上述研究领域的相关经验,包括行业经验或作为参与实验室研究 优先录用: -对技术研究充满热情,具有产生新思想和创新的能力; 在自学,问题分析和解决方面表现出色 -在国际会议上或核心期刊发表一份或多份出版物或论文 -至少3个月的全职工作
工作职责
研究领域: 机器学习 项目简介: 近年来学术界和工业界均在计算机视觉、自然语言处理及语音识别方向上取得了突破性进展,因此融合多模态深度学习框架也越来越受到关注。随着金融科技的发展,多模态数据, 包括但不限于文本、图像、视频、声音、序列等模态的多样化数据已经成为金融机构不可或缺的一部分。因此,我们计划搭建金融领域的多模态安全大模型,处理包括但不限于文本、图像、视频甚至声音在内的多样化信息输入,并利用这些信息来进行风险评估、欺诈检测等关键任务,旨在通过整合多种类型的数据源来提升金融服务的安全性、准确性和效率。
研究领域: 人工智能 项目简介: 在大模型的国际化应用落地过程中,要解决几个核心的问题: 1. 大模型对于小语种的支持:在蚂蚁国际化场景中,既有中英文这样的大规模使用的语言,也有东南亚,欧洲,非洲等各的确相对较小语种的实际需求,这些小语种的语料相对而言获取难度高,也导致了大模型在应用落地过程中会遇到许多困难,探索一条高效可行的道路来扩充大模型对于小语种的支持是在业务和技术上都有着突破意义的工作 2. 大模型对于体验的支持:在模型的使用过程中,探索更好的用户体验需要进行相当的投入来保持对于体验的关注和不断尝试,既包括通过推理模型来提升模型回复能力,也包括通过长思考能力来提升问题解决的思路完备性,也可以借助于大模型的代码生成等推理能力来生成交互式界面,或者通过多模态模型来进行包括视频在内的AIGC等,在应用过程中有很多细节需要结合大模型基座进行优化 3. 模型可信:在金融场景中,模型回复的准确性和安全性至关重要,结合业务场景进行探索模型的grounding,知识注入和幻觉消除等工作
研究领域: 计算机视觉 项目简介: 研究背景与目标: 金融科技领域中,企业客户尽职调查(Due Diligence)的准确性和效率至关重要。蚂蚁集团为企业客户提供的自助视频尽调服务是一个典型应用场景。然而,多模态信息的整合和一致性验证仍面临诸多挑战。本研究旨在探索基于多模态理解的创新方法,以提高尽调过程的准确性和可靠性。 研究重点: 1. 开集跨帧物体识别与跟踪: 目标:开发基于预训练多模态大模型的算法,实现视频中的开集物体识别和跨帧跟踪。 创新点:处理复杂场景下的遮挡和外观变化问题,提高识别的鲁棒性。 方法:探索结合注意力机制和时序建模的算法架构。 2. 跨模态一致性检验: 目标:构建基于Chain-of-Thought (CoT)推理的多模态信息冲突检测系统。 创新点:整合文本、视频和表格数据,实现跨模态的语义一致性验证。 方法:研究多模态表示学习和语义对齐技术,设计新型的基于CoT的冲突检测算法。
研究领域: 人工智能 项目简介: 目前,大模型应用已经非常普遍,比如对话系统、AI搜索、智慧医疗、金融理财等场景。伴随着业务场景越来越丰富,大模型的迭代周期也越来越短。如何能在较短的周期内,进行快速迭代,成了各大厂的迫切诉求。在迭代过程中,如何快速评估大模型的效果,是一个非常关键的环节。 为了更好的对大模型开展评测,指导大模型进行快速、正确的迭代,我们需要聚焦以下关键的问题:1)评测对象;2)评测数据集;3)评测方法;4)评测结论反馈。 因此,本项目旨在用大模型算法,通过数据挖掘和自动化评测的技术手段,解决大模型迭代过程中的评测问题。研究方向涵盖语言大模型评测、多模态大模型评测、结构化问答评测等。
研究领域: 数据挖掘与内容检索 项目简介: 近年来,深度学习和人工智能技术快速发展,大模型自然语言处理在机器翻译、文本生成、情感分析等领域展现出强大能力,蚂蚁也在金融、生活、医疗领域等落地丰富的消费场景。数据作为大模型发展的三大基石之一,语料的规模、质量、多样性对模型质量起到至关重要的作用。尽管许多大模型已经相继开源,但其训练数据几乎全部闭源并视其为重要的商业机密,因此研究和建设高质数据集成为有利于提升模型精度、鲁棒性和泛化能力,是大模型发展的重要方向。 蚂蚁当前训练语料包括文本、图文和视频场景,现有方法主要依赖于人类专家制定的启发式规则来提高语料库质量,仍缺乏一个整体、多维度、易用的语料质量评估体系;此外,是否可以通过数据修复和增强等手段,剔除数据中的低质内容,提升数据多样性和代表性,从而获取更多的优质训练样本?数据质量与模型能力之间的联系如何?又如何设计统一的优化手段来增强数据质量?这些问题都是提升模型性能亟需解决的关键。