阿里云研究型实习生 - 多模态RAG(检索增强生成)的应用技术研究
任职要求
优秀的基础素质和Research能力,博士优先,有顶会/顶刊一作论文或国际评测任务冠军优先,实习周期超过6个月优先。基于以下内容完成业务应用和效果、阿里巴巴1类会议论文、国际评测任务冠军: 1、在多模态检索场景构建公开Benchmark,提出SOTA水…
工作职责
RAG(Retrieval-Augmented Generation)检索增强生成技术伴随着LLM技术爆发迅速发展,广泛应用于文档问答、智能客服、技术支持等实际业务场景。 在上述场景中,除了纯文本内容效果已经发展到一定水平,图片、表格、代码等多模态的内容的RAG还处于比较初级阶段,目前技术很难解决实际业务问题。 多模态RAG效果重要的效果瓶颈之一在于多模态检索技术,如何将多模态信息统一表征到同一个向量化空间中,结合向量检索技术提升多模态检索效果是很有挑战的问题。 除了上述场景,多模态RAG通过和音频、视频等模态的结合,必定还有更多的业务场景可以挖掘。
我们正在寻找对人工智能、多模态数据处理、系统性能优化感兴趣的实习生,参与一个面向多模态数据获取、解析、压缩与高效传输的研究课题。该课题聚焦于提升多模态系统在复杂环境下的实时性表现与资源利用率,具有广泛的应用前景(如智能运维、RAG检索增强生成、边缘计算等)。你将参与的工作包括但不限于: 1. 多模态数据采集与预处理:从网页、API、数据库、摄像头、麦克风等来源获取文本、图像、音频和视频数据; 2. 多模态数据解析与特征提取:使用OCR、ASR、NLP、CV等技术解析不同模态内容; 3. 模型轻量化与加速:探索基于Transformer、CNN、LSTM等模型的压缩、蒸馏、量化方法; 4. 系统级优化与部署:设计低延迟、低资源占用的数据处理流程,支持在边缘设备上运行; 5. 性能评估与实验分析:构建测试集,评估系统的吞吐量、响应时间、准确率等关键指标; 6. 撰写技术文档与研究报告:整理实验过程、结果与改进建议。 技术要求(优先但不强制): 1. 熟悉Python编程语言,有良好的代码规范; 2. 了解基本的NLP、CV或语音识别技术; 3. 掌握至少一种深度学习框架(PyTorch/TensorFlow); 4. 熟悉Linux系统及常用命令行工具。 有以下经验者优先考虑: 1. 多模态任务处理经验(如CLIP、Flamingo等); 2. 模型压缩与部署经验(如TensorRT、ONNX、OpenVINO、TVM等); 3. 使用过音视频处理工具(如FFmpeg、OpenCV、Whisper、YOLO等); 4. 有一定系统编程能力(C/C++、CUDA、FPGA基础)。
RAG(检索增强生成)是一种将信息检索技术与大语言模型相结合的技术架构。它通过从海量文档中检索出与查询相关的信息,并将这些信息输入到大语言模型中,从而生成更准确且全面的回答或文本。然而,要实现生产级的RAG性能和可靠性,还需要面临诸多挑战。阿里云人工智能平台(PAI)团队专注于RAG平台的开发与持续优化,致力于推动企业级RAG在实际业务中的落地与应用。我们目前的研究和开发方向包括但不限于: 1. 查询理解与优化:提升对大语言模型的查询理解能力,优化召回机制及查询重排序算法。 2. 多模态的文档理解和问答生成:提升多模态文档(包括文本和图像等)的理解及问答生成能力。 3. 大模型Agent技术:提升基于大语言模型的Agent的任务规划和工具调用能力。 4. Text2SQL生成:优化从自然语言自动生成SQL查询的准确性。 5. RAG效果评估:构建benchmark和效果评估。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。
团队介绍:字节跳动基础架构团队主要负责公司云基础建设,支撑着字节跳动旗下多款APP产品,如抖音、今日头条、番茄小说、西瓜视频、飞书、剪映等,同时也负责支持火山引擎公有云业务。迄今为止,我们通过云技术管理着百万量级的服务器构成的超大数据中心;我们通过字节深度优化的Kubernetes管理超过千万容器实例支持10万+微服务;我们还通过丰富的存储产品矩阵,如NewSQL、NoSQL、云存储等治理EB级的数据资产;我们积极拥抱开源和创新的软硬件架构,致力于构建业界领先的云基础设施,为整个公司的业务和客户发展保驾护航。我们热切期待对技术有追求、对大型系统有深刻见解的同学加入基础架构团队一起构建基础设施系统。 课题介绍: 课题背景: 在大语言模型蓬勃发展的当下,本课题聚焦于智能云基础设施与数据处理关键技术的多维度研究,旨在全面提升云服务在 AI 场景下的综合性能与效率。 课题挑战: 1、新一代搜索型数据库:当前产业界广泛应用的ElasticSearch面临数据与用户需求的深刻变革。需实现语义检索升级,突破关键词匹配限制,以满足学术研究等领域对语义理解和精准检索的要求;具备处理和融合多模态数据的能力,应对互联网图像、音视频多模态数据的爆发式增长;优化检索过程,更好地支持检索增强生成(RAG)技术,为语言模型提供优质信息;同时,需应对各行业海量数据存储检索压力,提升搜索实时性与跨语言能力; 2、面向LLM的下一代智能云基础架构:一方面,自动化和智能化管理基础架构各系统生命周期,深度融合人工智能与基础架构关键系统,建设大规模LLM for Infra 服务;另一方面,针对新涌现的LLM应用场景,在基础架构各个领域进行前沿技术创新,与字节工程团队合作,设计和开发高性价比且简单易用的下一代大模型基础架构,为火山引擎奠定技术与业务增长基础; 3、面向 AI 场景的serverless高性能弹性文件系统关键技术研究:大模型时代数据量爆炸式增长,当前文件系统多采用中心化元数据架构,难以水平扩展,限制文件系统规模及元数据性能。本研究将围绕元数据扩展性、与大模型深度结合提供Data Insight、设计高性能元数据单机引擎、实现任意目录快照、融合文件系统和对象存储元数据、内存加速、提供QoS(性能租户隔离和目录隔离)、故障处理(故障域隔离和故障无损)以及研发高性能客户端(用户态文件协议和DPU卸载)等关键技术展开; 4、面向大规模AI集群的高速通信和稳定性优化:随着大模型训练/推理业务规模增长,底层高速网络面临挑战。一方面,需解决GPU服务器硬件资源利用率偏低问题,包括充分利用CPU和内存空闲资源,以及研发计算通信融合的高性能集合通信库,实现通信算子与计算任务的深度融合;另一方面,在稳定性方面,提升故障快速发现和根因定位能力,解决网络吞吐不达预期等典型故障。