阿里云研究型实习生 - 城市二三维数据神经融合计算
任职要求
1、完成关键技术的预研与开发工作,提交一套高效、可扩展的源代码; 2、在CCF-A类会议或国际顶尖学术期刊上发表1至2篇高质量研究论文,展示项目研究成果,提升国际学术影响力。
工作职责
三维空间计算在推动城市数字化转型与智能化应用方面发挥着至关重要的作用,然而,大规模、高精确度三维数据的生成与分析面临重重挑战,包括高昂的成本、较低的效率及应用场景的局限性。近年来,图像驱动的三维场景建模技术与多模态大语言模型技术的飞速进步,为解决这一难题提供了新途径。这些技术使得利用丰富的二维图像与语言数据精准构建和解析复杂的三维空间成为可能,进而为城市规模的大场景多模态数据整合与智能计算开辟了新前景,特别是在空间智能等前沿应用领域。聚焦于大规模二三维融合计算的挑战,本项目旨在深入探究并实施三项关键技术的研发: 1、空间数据融合:探索一种通用的技术框架,实现地理地图、街景图像、三维点云、地址文本等多种空间数据的融合,通过建立它们之间的关联,挖掘更深层次的空间特征(例如位置、方向、语义信息),以增强对复杂空间环境的表达与理解能力; 2、三维空间计算:研究并利用3D多模态大语言模型的潜能,使模型不仅能够定性分析场景的语义内容与空间结构(如依据图像进行地址描述、预测遮挡效果、执行碰撞检测),还能够进行精确的定量计算(如精确地理定位、精细几何尺寸计算),从而提升三维空间信息处理的深度与广度; 3、空间应用创新:基于上述二三维融合计算的核心技术突破,结合大语言模型的功能,探索并验证新型空间智能应用场景与服务模式,推动技术成果转化与行业应用创新。
城市视频计算场景下的视图聚档,是指将来自城市摄像头下的人机非脸抓拍数据按照自然人唯一身份汇聚为一个个类簇,是实现城市人员ID化的一个非常核心的技术体系。围绕该场景,本项目拟解决如下问题: 1、基于多模态聚类算法、簇表征学习、图神经网络、同人识别模型算法等,持续提升聚类和归档过程中的准确率、召回率; 2、与多模态大模型、三维视觉分析等热门技术结合,优化聚档流程,扩展聚档应用范畴; 3、探索主动聚类、实时聚类等前沿方向,定义视图聚档技术发展的新路标; 4、基于时空轨迹分析、关系分析等数据分析算法,提升档案数据的挖掘价值。
一网统管城市治理业务中,视觉AI系统中的计算任务存在着城市场景规模大(万路级别视频点位)、应用场景复杂(户外、室内、工厂、道路等)、需求任务众多且复杂(城市国标部件等大小100余项目标类别的感知和判别能力)的特点。有限的计算资源与超大规模的视觉分析需求是视觉AI系统研发中的核心矛盾,结合业务特点城市大脑团队创新性的研发了视频巡检分析系统,通过时分复用提升系统分析能力。视频巡检分析系统的核心挑战是任务调度,巡检任务具备周期性、相关性(任务合理组合可有效降低算力需求)、多目标限制(CPU、GPU算力限制)、深度模型推理等复杂特性,对任务调度技术提出极大挑战。在任务调度问题的探索与深挖上,团队需要借助优质的高校在读博士研究生资源,在科研方向上进行技术积淀,并结合一网统管具体的业务场景与要求,实战落地更为鲁棒的大规模城市巡检调度系统。
计算机视觉作为深度学习技术重要的应用方向,在城市监控视频等场景下展现了极大的落地价值。基于城市级视频实时、海量、场景多样等特点,利用计算机视觉技术分析视频中所蕴含的行人/车辆/物品/行为/事件等能够节约大量人力成本,实现全城知、全城搜,对建设智慧城市具有重要意义。 城市监控视频分析规模大、场景多样、计算效率要求高等特点,对视觉算法提出了特殊的挑战。我们希望用机器学习算法解决以下业务: 1)大规模视频分析基础模型优化:现有的CNN/transformer backbone在城市视频分析中存在效率和准确率难平衡、跨城市部署性能急剧下降等问题。 2)视频行人/车辆/物品等目标表征优化:希望从数据、算法出发,提升目标特征和属性的精度,优化城市目标搜索、聚档的召回率和准确率。