阿里云研究型实习生 - 基于多模态的核心数据链路研究
任职要求
1.计算机或相关方向博士、硕士在读; 2.在数据库、人工智能、系统、安全等领域有顶会论文发表经验…
工作职责
我们正在寻找对人工智能、多模态数据处理、系统性能优化感兴趣的实习生,参与一个面向多模态数据获取、解析、压缩与高效传输的研究课题。该课题聚焦于提升多模态系统在复杂环境下的实时性表现与资源利用率,具有广泛的应用前景(如智能运维、RAG检索增强生成、边缘计算等)。你将参与的工作包括但不限于: 1. 多模态数据采集与预处理:从网页、API、数据库、摄像头、麦克风等来源获取文本、图像、音频和视频数据; 2. 多模态数据解析与特征提取:使用OCR、ASR、NLP、CV等技术解析不同模态内容; 3. 模型轻量化与加速:探索基于Transformer、CNN、LSTM等模型的压缩、蒸馏、量化方法; 4. 系统级优化与部署:设计低延迟、低资源占用的数据处理流程,支持在边缘设备上运行; 5. 性能评估与实验分析:构建测试集,评估系统的吞吐量、响应时间、准确率等关键指标; 6. 撰写技术文档与研究报告:整理实验过程、结果与改进建议。 技术要求(优先但不强制): 1. 熟悉Python编程语言,有良好的代码规范; 2. 了解基本的NLP、CV或语音识别技术; 3. 掌握至少一种深度学习框架(PyTorch/TensorFlow); 4. 熟悉Linux系统及常用命令行工具。 有以下经验者优先考虑: 1. 多模态任务处理经验(如CLIP、Flamingo等); 2. 模型压缩与部署经验(如TensorRT、ONNX、OpenVINO、TVM等); 3. 使用过音视频处理工具(如FFmpeg、OpenCV、Whisper、YOLO等); 4. 有一定系统编程能力(C/C++、CUDA、FPGA基础)。
【职位描述】 我们是小红书安全风控平台部/算法策略组/内容安全组,目前专注于多模态大模型在多模态理解和内容安全场景的技术落地和产品预研,目前在相关数据&技术方向有一定的积累,并将长期持续投入。我们希望寻求优秀在读硕士生/博士生共同突破大模型在安全审核行业落地的技术挑战,作为实习生,你将有机会与产品、工程紧密合作,将研究算法应用到实际问题中,并解决有难度有价值的问题,促进领域前沿技术的发展。欢迎投递简历。该岗位的核心研究方向包括但不限于: 1. 基础多模态表征:主要研究小红书多模态数据(笔记)下的基础多模态表征工作,包括层次化表征、特征融合、自监督探索等,作为基础模型,支持多样化检索场景。 2. 通用多模态大模型:通用多模态大模型在安全领域理解相关研究,包括高效微调、多模态理解等。建立安全多模态基础模型。
一、团队介绍 高德视觉技术中心为高德业务提供全面的核心视觉技术,是高德时空互联网领域重要的技术驱动力。我们专注于图像识别、点云识别、三维重建和传感器融合定位等领域, 我们致力于研究和开发业内领先的感知、SLAM、重建和多模态大模型等算法, 促科技创新,与生态共进,连接真实世界,做好一张活地图,让出行和生活更美好! 通过视觉技术中心的春季实习生项目,高校学生通过此项目可以接触到高德真实的业务场景和海量时空大数据,在优秀的前辈与高德技术人交流学习中加速成长。我们希望更多优秀的高校同学加入我们,一起打造极致的算法和产品体验。 二、基本要求 面向预期于26、27届毕业的同学,可以连续实习至少三个月的同学优先。实习地点:北京,我们将提供有竞争力的实习薪酬和充足的训练资源。 三、算法实习生 职位描述 团队主要聚焦视觉、矢量地图、多模态大模型技术,我们期待你的工作将覆盖以下至少一个技术方向: 1. 探索自动驾驶场景下的在线感知、建图、关联等前沿技术,包括但不限于矢量地图构建、矢量地图关联等; 2. 探索多模态大模型在下游任务中的技术能力,包括但不限于图文对齐/识别、跨模态理解生成、多模态检索、VLM端到端自动驾驶、世界模型等;
城市视频计算场景下的视图聚档,是指将来自城市摄像头下的人机非脸抓拍数据按照自然人唯一身份汇聚为一个个类簇,是实现城市人员ID化的一个非常核心的技术体系。围绕该场景,本项目拟解决如下问题: 1、基于多模态聚类算法、簇表征学习、图神经网络、同人识别模型算法等,持续提升聚类和归档过程中的准确率、召回率; 2、与多模态大模型、三维视觉分析等热门技术结合,优化聚档流程,扩展聚档应用范畴; 3、探索主动聚类、实时聚类等前沿方向,定义视图聚档技术发展的新路标; 4、基于时空轨迹分析、关系分析等数据分析算法,提升档案数据的挖掘价值。
三维空间计算在推动城市数字化转型与智能化应用方面发挥着至关重要的作用,然而,大规模、高精确度三维数据的生成与分析面临重重挑战,包括高昂的成本、较低的效率及应用场景的局限性。近年来,图像驱动的三维场景建模技术与多模态大语言模型技术的飞速进步,为解决这一难题提供了新途径。这些技术使得利用丰富的二维图像与语言数据精准构建和解析复杂的三维空间成为可能,进而为城市规模的大场景多模态数据整合与智能计算开辟了新前景,特别是在空间智能等前沿应用领域。聚焦于大规模二三维融合计算的挑战,本项目旨在深入探究并实施三项关键技术的研发: 1、空间数据融合:探索一种通用的技术框架,实现地理地图、街景图像、三维点云、地址文本等多种空间数据的融合,通过建立它们之间的关联,挖掘更深层次的空间特征(例如位置、方向、语义信息),以增强对复杂空间环境的表达与理解能力; 2、三维空间计算:研究并利用3D多模态大语言模型的潜能,使模型不仅能够定性分析场景的语义内容与空间结构(如依据图像进行地址描述、预测遮挡效果、执行碰撞检测),还能够进行精确的定量计算(如精确地理定位、精细几何尺寸计算),从而提升三维空间信息处理的深度与广度; 3、空间应用创新:基于上述二三维融合计算的核心技术突破,结合大语言模型的功能,探索并验证新型空间智能应用场景与服务模式,推动技术成果转化与行业应用创新。