深度学习04 - 循环神经网络(RNN)-理论篇

1、RNN提出原因?

某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。比如,当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列;当我们处理视频的时候,我们也不能只单独的去分析每一帧,而要分析这些帧连接起来的整个序列。这时,就需要用到深度学习领域中另一类非常重要神经网络:循环神经网络(Recurrent Neural Network)。
2、几类循环神经网络 1、基本循环神经网络 使用场景:
之前语言模型主要是采用N-Gram。N可以是一个自然数,比如2或者3。它的含义是,假设一个词出现的概率只与前面N个词相关。我们以2-Gram为例。
考虑如下一句话:
我 昨天 上学 迟到 了 ,老师 批评 了 ____。
如果用2-Gram进行建模,那么电脑在预测的时候,只会看到前面的『了』,然后,电脑会在语料库中,搜索『了』后面最可能的一个词。不管最后电脑选的是不是『我』,我们都知道这个模型是不靠谱的,因为『了』前面说了那么一大堆实际上是没有用到的。如果是3-Gram模型呢,会搜索『批评了』后面最可能的词,感觉上比2-Gram靠谱了不少,但还是远远不够的。因为这句话最关键的信息『我』,远在9个词之前!
现在读者可能会想,可以提升继续提升N的值呀,比如4-Gram、5-Gram…。实际上,这个想法是没有实用性的。因为我们想处理任意长度的句子,N设为多少都不合适;另外,模型的大小和N的关系是指数级的,4-Gram模型就会占用海量的存储空间。
深度学习04 - 循环神经网络(RNN)-理论篇
文章图片

由输入层、一个隐藏层和一个输出层组成
x是一个向量,它表示输入层的值(这里面没有画出来表示神经元节点的圆圈);s是一个向量,它表示隐藏层的值(这里隐藏层面画了一个节点,你也可以想象这一层其实是多个节点,节点数与向量s的维度相同);U是输入层到隐藏层的权重矩阵
o也是一个向量,它表示输出层的值;V是隐藏层到输出层的权重矩阵。那么,现在我们来看看W是什么。循环神经网络的隐藏层的值s不仅仅取决于当前这次的输入x,还取决于上一次隐藏层的值s。权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重。
展开图:
深度学习04 - 循环神经网络(RNN)-理论篇
文章图片

深度学习04 - 循环神经网络(RNN)-理论篇
文章图片

深度学习04 - 循环神经网络(RNN)-理论篇
文章图片

2、双向循环神经网络 (1)使用场景:
考虑如下例子:
我的手机坏了,我打算____一部新手机。
可以想象,如果我们只看横线前面的词,手机坏了,那么我是打算修一修?换一部新的?还是大哭一场?这些都是无法确定的。但如果我们也看到了横线后面的词是『一部新手机』,那么,横线上的词填『买』的概率就大得多了。
在上一小节中的基本循环神经网络是无法对此进行建模的,因此,我们需要双向循环神经网络
图像:
深度学习04 - 循环神经网络(RNN)-理论篇
文章图片

深度学习04 - 循环神经网络(RNN)-理论篇
文章图片

3、深度循环神经网络 (1)使用场景
【深度学习04 - 循环神经网络(RNN)-理论篇】前面我们介绍的循环神经网络只有一个隐藏层,我们当然也可以堆叠两个以上的隐藏层,这样就得到了深度循环神经网络
深度学习04 - 循环神经网络(RNN)-理论篇
文章图片

深度学习04 - 循环神经网络(RNN)-理论篇
文章图片

2、循环神经网络的训练算法:BPTT 深度学习04 - 循环神经网络(RNN)-理论篇
文章图片

深度学习04 - 循环神经网络(RNN)-理论篇
文章图片

    推荐阅读