【深度学习】CNN与RNN：它们有什么不同？

语言 Chinese, Simplified

SEO Title

CNN vs. RNN: How are they different?

卷积神经网络和递归神经网络是许多推动商业价值的人工智能应用的基础。在本初级读本中了解细胞神经网络与RNN。

为了在不错过机会的情况下设定对人工智能的现实期望，了解算法的能力和局限性很重要。

在本文中，我们探讨了推动人工智能领域向前发展的两种算法——卷积神经网络（CNNs）和递归神经网络（RNNs）。我们将介绍它们是什么，它们是如何工作的，它们的局限性是什么，以及它们在哪里相辅相成。

但首先，简要总结CNN和RNN之间的主要区别。

CNNs 通常用于解决与空间数据（如图像）相关的问题。RNN更适合分析时间序列数据，如文本或视频。
CNN与RNN具有不同的体系结构。细胞神经网络是使用滤波器和池化层的“前馈神经网络”，而RNN将结果反馈到网络中（下面将详细介绍这一点）。
在CNNs 中，输入和输出的大小是固定的。也就是说，CNN接收固定大小的图像，并将它们连同其预测的置信水平一起输出到适当的水平。在RNN中，输入和结果输出的大小可能会变化。
CNNs 的使用案例包括面部识别、医学分析和分类。RNN的用例包括文本翻译、自然语言处理、情感分析和语音分析。

ANNs，CNNs，RNNs：什么是神经网络？

神经网络在其发明时被广泛认为是该领域的一项重大突破。根据我们大脑中神经元的工作方式，神经网络架构引入了一种算法，使计算机能够微调其决策——换句话说，就是学习。

人工神经网络由许多感知器组成。在最简单的形式中，感知器由一个函数组成，该函数接受两个输入，将它们乘以两个随机权重，将它们与偏差值相加，通过激活函数传递结果并打印结果。权重和偏差值是可调整的，并且它们定义了感知器的结果，给定两个特定的输入值。

这种架构非常天才：将感知器组合在一起，生成了几乎可以承担任何任务的可调整变量层。然而，问题是，为了进行正确的计算，应该为权重和偏差值选择什么数字。

人工神经元中的偏差

在人工和生物网络中，当神经元处理他们接收到的输入时，他们决定输出是否应该作为输入传递到下一层。是否发送信息的决定被称为偏差，它由系统中内置的激活函数决定。例如，只有当人工神经元的输入（实际上是电压）之和超过某个特定阈值时，人工神经元才能将输出信号传递到下一层。

--琳达·图奇

这是通过一种称为反向传播的机制来解决的。向人工神经网络提供输入，并将结果与预期输出进行比较。期望输出和实际输出之间的差异通过数学计算返回到神经网络中，该数学计算确定了应该如何调整每个感知器以达到期望的结果。

这个训练人工智能的过程被重复，直到达到令人满意的精度水平。

像这样的神经网络非常适合简单的统计预测，比如根据一个人的年龄、性别和地理位置来预测他最喜欢的足球队。但人工智能如何用于图像识别等更困难的任务？答案引出了一个问题，即我们首先如何将数据输入网络。

CNNs vs. RNNs: What they are and how they differ

This chart outlines the chief differences between a convolutional neural network and a recurrent neural network.

卷积神经网络

我们在计算机中看到的图像实际上是一组颜色值，分布在一定的宽度和高度上。我们所看到的形状和物体在机器上显示为一组数字。卷积神经网络通过一种称为滤波器的机制，然后汇集层来理解这些数据。

Ajay Divakaran解释道：“滤波器是一个随机数字矩阵。在CNN中，滤波器与图像部分的矩阵表示相乘，有效地逐像素扫描图像，获得所有相邻像素的平均值，从而检测最重要的特征。”，SRI国际视觉技术中心视觉与学习实验室的高级技术总监，该中心是一家非营利性科学研究机构。

他补充道：“这些信息通过池化层传递，池化层将获取的特征图浓缩为最基本的信息。”。最后一步大大减少了数据的大小，并使神经网络更快。然后将得到的信息输入到神经网络中。

CNN由几层感知器组成，滤波器有效地构建了一个网络，通过每一层都能理解越来越多的图像。第一层理解轮廓和边界，第二层开始理解形状，第三层理解物体。这个模型的强大之处在于它能够识别物体，无论它们出现在图片中的什么位置或旋转。

细胞神经网络非常擅长识别物体、动物和人，但如果我们想了解图片中发生了什么呢？

例如，考虑一张球在空中的照片。我们怎么知道球是扔上去的还是掉下来的？回答这个问题需要比一张图片更多的信息——我们需要一段视频。图片的顺序将决定球是向上还是向下。但是，我们如何让神经网络记住他们之前处理过的信息，并将其用于计算？

递归神经网络

记忆的问题不仅仅局限于视频——事实上，许多自然语言理解算法（通常只处理文本）需要某种记忆，比如讨论的主题或句子中的前一个单词。

递归神经网络正是为了解决这个问题而设计的。该算法将结果反馈给自己，使其成为最终答案的一部分。

为了说明这一点，假设我们想翻译以下句子：“它是什么日期？”该算法将每个单词分别输入神经网络，当它到达单词“it”时，其输出已经受到单词“What”的影响

不过，RNN确实存在问题。在前面的例子中，最后输入网络的单词对结果的影响更大（在我们的例子中是单词“是吗？”）。这两个词并没有让我们对整句话有太多的理解——算法正在遭受“记忆丧失”。这个问题并没有被忽视，长短期记忆（LSTM）等新算法解决了这个问题。

下图来自Wikimedia Commons，显示了一个单单元递归神经网络。

RNN

This diagram, courtesy of Wikimedia Commons, depicts a one-unit RNN. From bottom to top: input state, hidden state, output state. U, V, W are the weights of the network. Compressed diagram on the left and the unfold version of it on the right.