NN:神经网络 CNN:卷积神经网络 RNN:循环神经网络 DNN:深度神经网络
感知机:输入层、输出层、隐含层
多层感知机:神经网络的层数决定了它对现实的刻画能力
问题:优化函数越来越容易陷入局部最优解;“梯度消失”现象更加严重 单从结构上来说,全连接的DNN和上图的多层感知机是没有任何区别的。为了克服梯度消失,RELU等人用传输函数替代了sigmoid。
全连接的DN的结构里下层神经元和所有上层神经元都能够形成连接,带来的潜在问题是参数数量的膨胀,由此有新的CNN
对于CNN来说,并不是所有上下层神经元都能直接相连,而是通过“卷积核”作为中介。同一个卷积核在所有图像内是共享的,图像通过卷积操作后仍然保留原先的位置关系。比较关键的一点就是,对于CNN的隐含层,每幅图像(每一层)都是对原始图像中的不同特征的相应。
对于图像,如果没有卷积操作,学习的参数量是灾难级别的。CNN之所以用于图像识别,正是由于CNN模型了参数的个数并挖掘了局部结构的这个特点。顺着同样的思路,利用语音语谱结构中的局部信息,CNN照样能应用在语音识别中
全连接的DNN还存在着另一个问题——无法对时间序列上的变化进行建模,由此出现了RNN
在RNN中,神经元的输出可以在下一个时间戳直接作用到自身,即第i层神经元在m时刻的输入,除了(i−1)层神经元在该时刻的输出外,还包括其自身在(m−1)时刻的输出。相当于有一种反馈机制。对于RNN,可以看作是时间上传递的神经网络,其深度为时间的长度。所以会在时间轴上出现“梯度消失”,为了解决这种问题,又出现了LIST长短时记忆单元。
Convolutions:回旋、盘旋 Subsampling:二次抽样