竟高保真还原各种图像视频完胜ReLU！斯坦福的神经网络采用这种激活函数

完胜ReLU！斯坦福的神经网络采用这种激活函数，竟高保真还原各种图像视频

十三来源：量子位

简单的结构，引爆机器学习圈

一个来自斯坦福团队研究的、名为的简单神经网络结构，刚引爆了机器学习圈。

不为别的，实在是因为它展现出来的音/视频及图像复原效果，太令人惊叹了（效果展示中，Ground Truth为原始视频、音频或图像数据）。

视频中对一只猫咪的动态进行了还原，可以看见，使用SIREN重构的猫咪明显具有更高的清晰度。

从图中就能看见，SIREN对音频的还原几乎可以用“完全一致”来形容。

对于图像的还原，SIREN的效率有点高，视频中可见，SIREN以极少的迭代次数将图像高度还原了出来。

要问为什么这个神经网络架构能表现出这么好的效果？

接着往下看。

以连续的方式存储图像数据

在采样的过程中，我们所获得的的数据往往是离散的，这也就意味着，在还原图像时，需要通过插值的方式来对图像进行表示。

不仅如此，以离散的形式存储大量原始数据也需要占据一定的空间。

SIREN在这个方向上进行了突破，通过采用 周期性激活函数 Sine代替常见的非线性激活函数（如ReLU、TanH等），以连续的方式进行数据存储。

相比于ReLU、TanH等非周期性的激活函数来说，SIREN将正弦周期函数用作激活函数，相当于为神经网络引入了 周期性 。

由于周期性的正弦激活函数处处可微，使得其能够快速适应复杂信号，很好地对自然图像空间进行参数化，建模更为精细。

这不仅意味着函数能以连续的方式表示图像，而且能在 不丢失任何信息 的情况下，以任一种分辨率表示它。

不仅图像如此，在3D模型上也是如此。照这样看，是不是可以3D修复建筑物了？

△ 建模效果就像精装房对比毛坯房一样

即使原始数据显然是离散的，通过连续的方式存储数据也有一个好处，就是不必再担心采样的问题。

这对于数据压缩和图像修复研究的影响不可忽视。

基于梯度的监督学习

有没有想过对神经网络中函数的导数进行监督学习？

SIREN就这么做了。

之所以它能这么做，是因为其所采用的正弦激活函数，导数仍然具有周期性（余弦函数），即SIREN的导数仍然是SIREN。

因此，SIREN的导数继承了SIREN的特性。这使得在进行监督学习时，我们能够使用复杂的信号来对SIREN的任何阶次的导数进行监督。

下图是SIREN对海星图像采用梯度或Laplacians（绿色下划线表示采用的监督方式）进行监督学习的效果。

与图左的真值相比，这两种方式的重构效果都不错，其中中间的图像是采用梯度监督、针对原图进行的重构，而右边的图像则是采用Laplacians监督、针对图像导数进行的重构。

结果证明了当使用导数监督SIREN时，其仍然有良好的表现，这项结论对于解决边值问题（BVP）的效果非常好。

不仅如此，SIREN相较于其他结构而言，收敛速度更快，往往只需要在GPU上花费几秒钟，就能获得高保真的图像重构效果。

是突破性创新还是有所局限？

别忘了，周期性正弦激活函数是在 隐式表示 神经网络的基础上使用的。

隐式表示，与之相对的是显性表示，后者函数的表达式只用自变量表示，前者则无法将函数与自变量很好地区分开来。

隐式表示举例：f（x）= [f（x）]^2 + x，表达式中仍然包含f（x）

显式表示举例：f（x）= x + 2

相较于显式神经表示，隐式神经表示的研究近年来逐渐兴起，这种函数能表达的关系式更丰富多样，但与此同时也存在着建模不够精细的问题。

此次斯坦福团队的研究可以说是在隐式神经表示领域内的一次突破，采用了周期性激活函数和适当的初始化方案，取得了不错的效果。

研究成果刚出来时，不少网友在Twitter上对这次研究作出了评论，其中大部分表示惊叹。

这位网友显然对这次的研究成果非常狂热。

有的网友已经开始重新考量ReLU在当今神经网络中的地位。

也有网友表示，相较于整篇论文的研究成果，将正弦激活函数用于神经网络这个观点，对机器学习领域的影响显然更大。

也有网友认为这次研究依旧具有局限性。

在Reddit上，一名网友在对论文进行仔细研读后，更是毫不留情地提出了自己的质疑。

立刻有网友表示同意。

由此看来，这项研究的实际应用价值，也许还需要更多的考量。

目前，已经有专业的网友对论文进行了详细解析，在不到一个小时的时间里，清晰易懂地介绍了论文核心内容。

论文解析时间轴如下，如果你对其中某一部分感兴趣的话，可以了解一下~（视频链接在文章末尾哦）

研究团队

△ Vincent Sitzmann

主作者Vincent Sitzmann是刚毕业于斯坦福大学的博士，目前在麻省理工学院攻读博士后，主要研究的方向包括神经场景表示、计算机视觉和深度学习。

这是一个人均博士水平的研究团队，对于计算机视觉方向的研究非常深入。

在计算机视觉日渐发达的今天，行业希望机器达成的远不仅是“像照相机一样，能够对图像进行简单的二维复制”，而是像人类一样，能够拥有视觉感知能力。

传送门

论文链接

项目介绍

论文解析

竟高保真还原各种图像视频完胜ReLU！斯坦福的神经网络采用这种激活函数

完胜ReLU！斯坦福的神经网络采用这种激活函数，竟高保真还原各种图像视频

以连续的方式存储图像数据

基于梯度的监督学习

是突破性创新还是有所局限？

研究团队

秋季视频全部上线吴恩达CS 230深度学习课开讲课件小抄应有尽有 (秋季视频全部素材)

没有了！

完胜ReLU！斯坦福的神经网络采用这种激活函数，竟高保真还原各种图像视频

以连续的方式存储图像数据

基于梯度的监督学习

是突破性创新还是有所局限？

研究团队

相关文章

秋季视频全部上线 吴恩达CS 230深度学习课开讲 课件小抄应有尽有 (秋季视频全部素材)

没有了！

秋季视频全部上线吴恩达CS 230深度学习课开讲课件小抄应有尽有 (秋季视频全部素材)