李飞飞团队最新研究,真实场景中识别物体具体属性,连表面纹理都识别出来了
晓查 来源: 量子位还引入了物理场景图和对应的PSGNet网络架构。
现在,细微到物体表面的纹理,AI都可以识别。
这就是李飞飞团队新研究。
我们知道,卷积神经网络在识别视觉对象方面很出色,但还不能很好的识别出物体的具体属性,比如表面形状、纹理等。
而最近,李飞飞团队的最新研究—— Learning Physical Graph Representations from Visual Scenes ,就一举解决了这个问题。
还引入了 物理场景图 (Physical Scene Graphs,PSG)和对应的网络架构。
PSG的概念概括了 MONet/IODINE 和t的工作思路,力求能够在几何上处理复杂的物体形状和纹理。
这样,在真实世界的视觉数据中学习,可以做到自监督,因而不需要大量和繁琐的场景组件标记。
具体研究是如何呢?我们一起来看看吧!
PSGNet的建构
简单来说,用一张图就可以表示。
棕色方框表示PSGNet的三个阶段。
首先, 特征提取 。采用ConvRNN从输入中提取特征。
然后, 构建图形 ,负责优化现有PSG级别。
最后,用于端到端训练的 图形渲染 。
其中,在构建图形这一阶段,由一对可学习的模块组成,即池化和向量化。
前者在现有图节点上动态的构建一个池化核的分区,作为学习的、成对的节点 affinities函数。
后者在与每个池化核相关联的图像区域及其边界上,聚合节点统计,来产生新节点的属性向量。这样便可以直观的表示出真实场景中的物体属性。
在「图形渲染阶段」,PSG相当于通过一个解码器。
在每个时间点将图节点属性,以及图节点顶层空间配准(SR),渲染成RGB、深度、段和RGB变化图z。
举个例子,除开棕色方框部分,就是一个PSG的三个层次以及与其纹理(QTR)和形状(QSR)渲染图。
实验结果
随后,将模型在 TDW-Primitives、TDW-Playroom 和 Gibson 测试集上训练,并与最近基于CNN场景分割方法进行性能比较。
首先说一说这三个数据集,为什么要选择这三个数据集呢?
Primitives和Playroom中的图像由ThreeDWorld (TDW)生成。其中,Primitives是在一个简单的3D房间中渲染的原始形状(如球体、圆锥体和立方体)的合成数据集。
Playroom是具有复杂形状和逼真纹理的物体的合成数据集,如动物、家具和工具,渲染为具有物体运动和碰撞的图形。
Gibson则是由 斯坦福大学 校园内部建筑物的RBG-D扫描组成。
这三个数据集都提供了用于模型监督的RGB、深度和表面法线图。
性能的比较结果如下:
注意的是 ,OP3和PSGNetM没有在Gibson或Primitives上进行训练,因为它们有静态测试集。
可以看到与其他模型相比,PSGNet表现出了更优的性能。
PSGNets的场景分解
此外,文中还通过「手动编辑」PSG顶层的节点,观察其渲染效果,来说明PSG能够正确的将场景表示为离散的对象及其属性。
就像这样。
从图中删除一个节点(DeleteA或者B),将它们移动到新的3D位置(MoveB和Occlude),改变形状属性(Scale/Rot),或者交换两个节点的颜色(Swap RGB)。
结果,发现都会改变相对于原始(Full)预测的图形渲染。
研究团队
这篇论文的研究团队是由 斯坦福大学 和 麻省理工大学 多个团队共同合作完成的,其中就包括 李飞飞 团队和来自的团队。
第一作者名叫Daniel Bear, 心理学系 博士后研究员,来自斯坦福大学 吴蔡神经科学研究所 。
你可能想问,为何研究脑科学的会跟李飞飞团队一起合作呢?
看了这位作者的研究方向你就知道了。
他一直都在致力于研究动物是如何感知世界。
从一开始哈佛大学本科期间,就主要研究动物 电信号 ,比如来自感官刺激的信号,如何诱导神经元基因表达。
接着在哈佛大学继续攻读博士时,就研究 化学信号 ,比如动物遇到的气味分子,如何转化为嗅觉感知。
而现在博士后研究期间,他就把目光转向了采用计算模型来表示动物大脑中的表征。如果可以,给他进一步的研究提供了思路。
于是,他们就这样交织在了一起。
吴蔡神经科学研究所
也许有朋友会对这个研究所的名字有点陌生。
但这是斯坦福大学里以中国人命名的研究所,2018年10月,出于纪念 蔡崇信 、 吴明华 夫妇对该所慷慨捐赠,正式命名为吴蔡神经科学研究所。
蔡崇信,大家都不陌生了。阿里巴巴合伙人,最早慧眼识珠加入马云的阿里事业的那个人。
也是鲜有机会,其夫人也被关注到。
现在,他们捐赠的研究所,产出了新成果。
所以新论文到手,欢迎细致研读后分享你的“读后感”哦。
论文地址:
版权所有,未经授权不得以任何形式转载及使用,违者必究。