logo of tongyi

通义研究型实习生-几何图形识别和推理技术研究

实习兼职通义研究型实习生地点:北京 | 杭州状态:招聘

任职要求


1.计算机视觉自然语言处理、人工智能等专业优秀在读硕士或博士;
2.熟练掌握tensorflowpytorch等至少一种主流深度学习框架,有复杂模型设计和建模经验;
3.具备出色的学术研究和数据分析能力,有高质量学术论文、高影响力开源项目、高水平竞赛获奖经验者优先;
4.良好的自我学习能力及自驱力,对前沿领域有强探索欲,富有想象力和创造力。

工作职责


几何图形推理是多模态大模型领域的重要研究课题。随着深度学习技术的发展,尤其是多模态大模型的崛起,其在语义理解、图像分析和跨模态任务中的应用引起了广泛关注。几何推理涉及图形的识别、分类、分析和推导,是理解空间关系和逻辑关系的重要手段。在教育、机器人和自动驾驶等领域,掌握几何推理能力的智能系统具有重要的应用价值。
追踪多模态、图像处理、自然语言处理、图像视频生成、OCR&多模态文档分析理解等前沿技术,在一个或多个方向进行深入研究,发表高水平论文或期刊;
联合学习图像与文本模态,对图形进行细粒度的grounding、parsing和comprehension,以实现模型对平面或立体图形的理解;
利用强化学习进行几何关系推理,探索适合几何图形和空间图形推理的强化学习算法;
构建大规模的几何图形识别、解析和推理数据集,以训练和评估大模型对图形的理解和推理能力。
包括英文材料
OpenCV+
NLP+
TensorFlow+
PyTorch+
深度学习+
数据分析+
相关职位

logo of alibaba
实习淘天集团研究型实

1、负责神经渲染建模相关技术研究,包括模型表示、模型压缩、模型编辑、模型质量优化、模型仿真等等方面; 2、负责神经渲染建模相关图象图形技术研究,包括图像检测、分割、超分,位姿估计,Mesh模型优化等等; 3、负责扫描建模相关技术研究,包括可微分几何建模、可微分纹理生成、基于深度先验的建模算法等等; 4、负责神经渲染建模的渲染相关研究,包括重光照技术、神经渲染的材质表示、透明反光材质渲染等等; 5、负责结合生成技术做3D物体模型、3D场景模型的生成,保障生成模型的高效果、可控性等等。

更新于 2025-05-06
logo of tongyi
实习通义研究型实习生

3D人是非常重要的3D资产,现有人工建模、文本生成、图像生成等多种方式获取,但是都不能完成图像级别的真实感,利用三维重建获得3D人的几何信息和颜色信息是获得高保真人属性的常用方法。过去的三维重建方法存在非常多的问题,主要是对毛发、眼睛、牙齿等关键区域建模质量较差,进而导致驱动效果也较差,失去复刻的真实感。近年来,基于NeRF的建模和渲染方案逐渐成熟,针对人的NeRF的重建保真度已经能够保证,但是实时驱动还是一个待解决的问题。本课题拟研究将3D人的重建和实时驱动、与2D的图像生成大模型结合,提高3D人重建和驱动的真实感的问题。

更新于 2025-03-25
logo of aliyun
实习阿里云研究型实习

三维空间计算在推动城市数字化转型与智能化应用方面发挥着至关重要的作用,然而,大规模、高精确度三维数据的生成与分析面临重重挑战,包括高昂的成本、较低的效率及应用场景的局限性。近年来,图像驱动的三维场景建模技术与多模态大语言模型技术的飞速进步,为解决这一难题提供了新途径。这些技术使得利用丰富的二维图像与语言数据精准构建和解析复杂的三维空间成为可能,进而为城市规模的大场景多模态数据整合与智能计算开辟了新前景,特别是在空间智能等前沿应用领域。聚焦于大规模二三维融合计算的挑战,本项目旨在深入探究并实施三项关键技术的研发: 1、空间数据融合:探索一种通用的技术框架,实现地理地图、街景图像、三维点云、地址文本等多种空间数据的融合,通过建立它们之间的关联,挖掘更深层次的空间特征(例如位置、方向、语义信息),以增强对复杂空间环境的表达与理解能力; 2、三维空间计算:研究并利用3D多模态大语言模型的潜能,使模型不仅能够定性分析场景的语义内容与空间结构(如依据图像进行地址描述、预测遮挡效果、执行碰撞检测),还能够进行精确的定量计算(如精确地理定位、精细几何尺寸计算),从而提升三维空间信息处理的深度与广度; 3、空间应用创新:基于上述二三维融合计算的核心技术突破,结合大语言模型的功能,探索并验证新型空间智能应用场景与服务模式,推动技术成果转化与行业应用创新。

更新于 2024-07-25
logo of antgroup
实习研究型实习生

研究领域: 人工智能 项目简介: 实时语音交互在大模型应用落地中对于提升用户对话体验,提升用户留存(豆包app加入语音对话后留存率提升明显)具有重要作用;在AI硬件领域(AI眼镜、戒指等),实时语音交互是直接的、天然的交互方式,且对语音理解的准确率、语音生成的自然度、对话准确率、交互响应速度都有较高的要求