为啥卷积神经网络bp算法里的BP算法花了那么久才被发明

点击联系发帖人 时间：2016-08-25 06:31

卷积神经网络bp算法

BP神经网络理论 - Pe.潘义 - 博客园
科普：神经网络是一种运算模型，由大量的节点（或称&神经元&，或&单元&）和之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重（weight），这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。人工神经网络通常是通过一个基于数学统计学类型的学习方法（Learning Method）得以优化，所以人工神经网络也是数学统计学方法的一种实际应用，通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间，另一方面在人工智能学的人工感知领域，我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法，人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力)，这种方法比起正式的逻辑学推理演算更具有优势。
单个神经元（理解神经网络第一步）：
a1~an为输入向量的各个分量
w1~wn为神经元各个突触的权值
b为偏置（bias），或者称之为阈值（threshold）
f为传递函数，通常为非线性函数。一般有traingd(),tansig(),hardlim()。以下默认为hardlim()
t为神经元输出
向量W为权向量
向量A为输入向量，做内积需要用到转置
b为偏置（bias），或者称之为阈值（threshold）
f为传递函数，也即激励函数
带有 sigma 函数（顶部）和 cutoff 函数（底部）
可见，一个神经元的功能是求得输入向量与权向量的内积后，经一个非线性传递函数得到一个标量结果。
单个神经元的作用：把一个n维向量空间用一个超平面分割成两部分（称之为判断边界），给定一个输入向量，神经元可以判断出这个向量位于超平面的哪一边。(SVM也即是做的这部分工作，所以说，当单个神经元的时候，BP神经网络做的工作与SVM类似。该超平面的方程:WXT + b = 0)
向量W为权向量
向量X为输入向量
b为偏置（bias），或者称之为阈值（threshold）
&首先解释一下单个神经元如何进行分类判断：
&引入一个阈值逻辑单元（Threshold Logic Unit，TLU）的名词，它可以输入一组加权系数的量，对它们进行求和，如果这个和达到或者超过了某个阈值，输出一个量。
让我们用符号标注这些功能，首先，有输入值以及它们的权系数：X&1, X&2, ..., X&n和&W&1, W&2,&..., W&n。接着是求和计算出的&X&i*W&i&，产生了激发层&a，换一种方法表示：
a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn)
阈值称为&theta。最后，输出结果&y。当&a &=theta&时&y=1，反之&y=0。请注意输出可以是连续的，因为它也可以由一个&squash&函数&s（或&sigma）判定，该函数的自变量是&a，函数值在&0&和&1&之间，y=s(a)。
　　假设一个 TLU 有两个输入值，它们的权系数等于 1，theta 值等于 1.5。当这个 TLU 输入 &0,0&、&0,1&、&1,0& 和 &1,1& 时，它的输出分别为 0、0、0、1。TLU 将这些输入分为两组：0 组和 1 组。就像懂得逻辑连接（布尔运算 AND）的人脑可以类似地将逻辑连接的句子分类那样，TLU 也懂得一点逻辑连接之类的东西。&
&神经网络的学习是模仿大脑调节神经网络连接的原理。TLU通过改变它的权值以及阈值来进行学习。回想上面，我们看到SUM()&=theta时候，TLU在临界点是输出的是1而不是0，这就相当于当SUM(Wi * Xi)& +& (-1 * theta) &=&0的时候。这时候，我们把-1当做是一个常量输入，而他的权系数theta&&在学习过程(或者说是训练过程)中进行调整。这样，当 SUM(X i* W i)+ (-1 * theta) &= 0 时，y=1，反之 y=0。
在培训过程中，神经网络输入：
一系列需要分类的术语示例X(input)
它们的正确分类或者目标Target
这样的输入可以看成一个向量：&X 1, X 2, ..., X n, theta, t&，这里 t 是一个目标或者正确分类。神经网络用这些来调整权系数，其目的使培训中的目标与其分类相匹配。因为神经网络是有指导的培训。或许你现在会问，神经网络是如何通过&调整权系数&来进行学习的？也即神经网络的学习规则。下面介绍一下：权系数的调整有一个学习规则，一个理想化的学习算法如下所示：
理想化的学习算法 fully_trained = FALSE
DO UNTIL (fully_trained):
fully_trained = TRUE
FOR EACH training_vector = &X1, X2, ..., Xn, theta, target&::
# Weights compared to theta
a = (X1 * W1)+(X2 * W2)+...+(Xn * Wn) - theta
y = sigma(a)
IF y != target:
fully_trained = FALSE
FOR EACH Wi:
MODIFY_WEIGHT(Wi)
# According to the training rule
IF (fully_trained):
有一条似乎合理的规则是基于这样一种思想，即权系数和阈值的调整应该由分式 (t - y) 确定。这个规则通过引入 alpha (0 & alpha & 1) 完成。我们把 alpha 称为学习率。W i 中的更改值等于 (alpha * (t - y)* Xi)。当 alpha 趋向于 0 时，神经网络的权系数的调整变得保守一点；当 alpha 趋向于 1 时，权系数的调整变得激进。一个使用这个规则的神经网络称为感知器，并且这个规则被称为&感知器学习规则。概念一下貌似太多，针对单节点的描述可以暂时到此，对于我们的主题BP网络的学习规则接下来将会描述。
神经元网络：
单层神经元网络：是最基本的神经元网络形式，由有限个神经元构成，所有神经元的输入向量都是同一个向量。由于每一个神经元都会产生一个标量结果，所以单层神经元的输出是一个向量，向量的维数等于神经元的数目。示意图：
多层神经元网络(BP网络图)：
BP (Back Propagation)神经网络，即误差反传误差反向传播算法的学习过程，由信息的正向传播和误差的反向传播两个过程组成。由上图可知，BP神经网络是一个三层的网络:
输入层(input layer)：输入层各神经元负责接收来自外界的输入信息，并传递给中间层各神经元；
隐藏层(Hidden Layer):中间层是内部信息处理层，负责信息变换，根据信息变化能力的需求，中间层可以设计为单隐层或者多隐层结构；最后一个隐层传递到输出层各神经元的信息，经进一步处理后，完成一次学习的正向传播处理过程；
输出层(Output Layer):顾名思义，输出层向外界输出信息处理结果；
　　当实际输出与期望输出不符时，进入误差的反向传播阶段。误差通过输出层，按误差梯度下降的方式修正各层权值，向隐层、输入层逐层反传。周而复始的信息正向传播和误差反向传播过程，是各层权值不断调整的过程，也是神经网络学习训练的过程，此过程一直进行到网络输出的误差减少到可以接受的程度，或者预先设定的学习次数为止。
　　好了，以上对于神经网络的结构以及各个组件之间的运行时关系描述到此为止，那么，现在重要的是：具体是如何在误差反向传播的过程中，对各个层权系数进行调整？规则是什么？总结上面，调整的目的即是每次训练后减少误差。可以使用最小二乘法或者是梯度下降算法。首先需要介绍一下Delta学习规则。
关于 delta 规则
感知器培训规则是基于这样一种思路&&&权系数的调整是由目标和输出的差分方程表达式决定。而&delta&规则是基于梯度降落（也即梯度下降）这样一种思路。在权系数的调整中，神经网络将会找到一种将误差减少到最小的权系数的分配方式。梯度下降参考WIKI。这里不再摘抄。
为了便于说明，将我们的网络限制为没有隐藏节点，但是可能会有不止一个的输出节点。
设p是一组培训中的一个元素，t(p,n)是相应的输出节点 n 的目标。设y(p,n)为经过神经网络处理后的结果，由前面提到过的squash函数s决定(还记得我们前面提到说这个函数只是为了将连续的输出对应到我们不连续的分类target么？这个函数本身与神经网络没有关系哈)，这里a(p,n)是与p相关的n的激活函数，或者用(p,n) =s(a(p,n))表示为与p相关的节点n的squash过的激活函数。
为网络设定权系数（每个Wi），也为每个p和n建立t(p,n)与 y(p,n)的差分，这就意味着为每个p设定了网络全部的误差(因为通过这个P求出来的结果有误差，那么久要更新所有的权系数)。因此对于每组权系数来说有一个平均误差。但是 delta 规则取决于求平均值方法的精确度以及误差。我们先不讨论细节问题，只是说一些与某些p和n相关的误差：1/2*&square( t(p,n) - y(p,n) )&；现在对于每个权系数Wi，平均误差定义如下：
FOR p = 1 TO M:
# M is number of training vectors
FOR n = 1 TO N:
# N is number of output nodes
sum = sum + (1/2 * (t(p,n)-y(p,n))^2)
average = 1/M * sum
delta 规则就是依据这个误差的定义来定义的。因为误差是依据那些培训向量来说明的，delta 规则是一种获取一个特殊的权系数集以及一个特殊的向量的算法。而改变权系数将会使神经网络的误差最小化。我们不需要讨论支持这个算法的微积分学，只要认为任何Wi发生的变化都是如下所示就够了：
alpha * s'(a(p,n)) * (t(p,n) - y(p,n)) * X(p,i,n)
X(p,i,n)是输入到节点n的p中的第i个元素，alpha是已知的学习率。最后 s'(a(p,n))是与p相关的第n个节点激活的 squashing 函数的变化（派生）率，这就是 delta 规则。
最后说说：梯度下降算法对学习速率alpha的值非常敏感，学习速率的值越大，步长越大收敛的速度就会越快。学习速率越小，步长就小，需要迭代的次数就会多些。当alpha非常小的时候，权系数向量接近某个将误差最小化的向量。用于权系数调节的基于delta规则的算法就是如此。
继续回到BP神经网络的讨论，反向传播这一算法把支持delta规则的分析扩展到了带有隐藏节点的神经网络。为了理解这个问题，设想Bob给Alice讲了一个故事，然后Alice又讲给了Ted，Ted检查了这个事实真相，发现这个故事是错误的。现在 Ted 需要找出哪些错误是Bob造成的而哪些又归咎于Alice。当输出节点从隐藏节点获得输入，网络发现出现了误差，权系数的调整需要一个算法来找出整个误差是由多少不同的节点造成的，网络需要问，&是谁让我误入歧途？到怎样的程度？如何弥补？&这时，网络该怎么做呢？
同样源于梯度降落原理，在权系数调整分析中的唯一不同是涉及到t(p,n)与y(p,n)的差分。通常来说Wi的改变在于：
alpha * s'(a(p,n)) * d(n) * X(p,i,n)
其中d(n)是隐藏节点n的函数，让我们来看：
n 对任何给出的输出节点有多大影响；
输出节点本身对网络整体的误差有多少影响。
一方面，n 影响一个输出节点越多，n 造成网络整体的误差也越多。另一方面，如果输出节点影响网络整体的误差越少，n 对输出节点的影响也相应减少。这里d(j)是对网络的整体误差的基值，W(n,j) 是 n 对 j 造成的影响，d(j) * W(n,j) 是这两种影响的总和。但是 n 几乎总是影响多个输出节点，也许会影响每一个输出结点，这样，d(n) 可以表示为：
SUM(d(j)*W(n,j))
这里j是一个从n获得输入的输出节点，联系起来，我们就得到了一个培训规则。
第1部分：在隐藏节点n和输出节点j之间权系数改变，如下所示：
alpha * s'(a(p,n))*(t(p,n) - y(p,n)) * X(p,n,j)
第 2 部分：在输入节点i和输出节点n之间权系数改变，如下所示：
alpha * s'(a(p,n)) * sum(d(j) * W(n,j)) * X(p,i,n)
这里每个从n接收输入的输出节点j都不同。关于反向传播算法的基本情况大致如此。
使误差小到适当的程度要遵循的步骤
第 1 步：输入培训向量。
第 2 步：隐藏节点计算它们的输出
第 3 步：输出节点在第 2 步的基础上计算它们的输出。
第 4 步：计算第 3 步所得的结果和期望值之间的差。
第 5 步：把第 4 步的结果填入培训规则的第 1 部分。
第 6 步：对于每个隐藏节点 n，计算 d(n)。
第 7 步：把第 6 步的结果填入培训规则的第 2 部分。
通常把第 1 步到第 3 步称为正向传播，把第 4 步到第 7 步称为反向传播。反向传播的名字由此而来。
参考资料：
神经网络编程入门，这儿有一个BP的matlab程序示例。
&梯度下降法
&神经网络介绍
&wiki上面的BP介绍
评论 - 156　>　　>　正文
神经网络里的BP算法为什么要花这么久呢？
12:02&&来源:
Roseblatt在五十年代就提出了感知机，又过了将近30年，多层神经网络的BP算法才得以普及。
而事实上这不过是微积分中链式法则的简单应用而已，为什么要花这么久呢？
bengio在quora上这样回答道：
很多看似显而易见的想法只有在事后才变得显而易见。
在控制论中，很早就开始应用链式反则来解决多层非线性系统。
但在80年代早期，神经网络的输出是离散的这样就无法用基于梯度的方法来优化了。
这时Rumelhart和Hinton想到，只要把输出做成平滑的（sigmoid），就可以用链式法则来训练多层神经网络了。
所以这不仅仅是链式法则的问题，而是要跳出离散输出的框框，这种理念上变革并不容易。
原文链接：/Why-did-it-take-so-long-to-invent-the-backpropagation-algorithm-Isnt-it-just-a-straightforward-albeit-cumbersome-application-of-the-chain-rule
点击听课：
点击听课：
点击听课：
点击听课：
点击听课：
1、凡本网注明 “来源：正保IT教育网”的所有作品，版权均属正保IT教育网所有，未经本网授权不得转载、链接、转贴或以其他方式使用；已经本网授权的，应在授权范围内使用，且必须注明“来源：正保IT教育网”。违反上述声明者，本网将追究其法律责任。
2、本网部分资料为网上搜集转载，均尽力标明作者和出处。对于本网刊载作品涉及版权等问题的，请作者与本网站联系，本网站核实确认后会尽快予以处理。本网转载之作品，并不意味着认同该作品的观点或真实性。如其他媒体、网站或个人转载使用，请与著作权人联系，并自负法律责任。
联系方式：010-
咨询热线：010-314057人阅读
Deep Learning（17）
Linux驱动（3）
机器学习（45）
Deep Learning（深度学习）学习笔记整理系列
作者：Zouxy
version 1.0
1）该Deep Learning的学习系列是整理自网上很大牛和机器学习专家所无私奉献的资料的。具体引用的资料请看参考文献。具体的版本声明也参考原文献。
2）本文仅供学术交流，非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益，还望海涵，并联系博主删除。
3）本人才疏学浅，整理总结的时候难免出错，还望各位前辈不吝指正，谢谢。
4）阅读本文需要机器学习、计算机视觉、神经网络等等基础（如果没有也没关系了，没有就看看，能不能看懂，呵呵）。
5）此属于第一版本，若有错误，还需继续修正与增删。还望大家多多指点。大家都共享一点点，一起为祖国科研的推进添砖加瓦（呵呵，好高尚的目标啊）。请联系：
&&&&&& 好了，到了这一步，终于可以聊到Deep learning了。上面我们聊到为什么会有Deep learning（让机器自动学习良好的特征，而免去人工选取过程。还有参考人的分层视觉处理系统），我们得到一个结论就是Deep learning需要多层来获得更抽象的特征表达。那么多少层才合适呢？用什么架构来建模呢？怎么进行非监督训练呢？
五、Deep Learning的基本思想
&&&&&& 假设我们有一个系统S，它有n层（S1,…Sn），它的输入是I，输出是O，形象地表示为： I =&S1=&S2=&…..=&Sn =& O，如果输出O等于输入I，即输入I经过这个系统变化之后没有任何的信息损失（呵呵，大牛说，这是不可能的。信息论中有个“信息逐层丢失”的说法（信息处理不等式），设处理a信息得到b，再对b处理得到c，那么可以证明：a和c的互信息不会超过a和b的互信息。这表明信息处理不会增加信息，大部分处理会丢失信息。当然了，如果丢掉的是没用的信息那多好啊），保持了不变，这意味着输入I经过每一层Si都没有任何的信息损失，即在任何一层Si，它都是原有信息（即输入I）的另外一种表示。现在回到我们的主题Deep
Learning，我们需要自动地学习特征，假设我们有一堆输入I（如一堆图像或者文本），假设我们设计了一个系统S（有n层），我们通过调整系统中参数，使得它的输出仍然是输入I，那么我们就可以自动地获取得到输入I的一系列层次特征，即S1，…, Sn。
&&&&&&&对于深度学习来说，其思想就是对堆叠多个层，也就是说这一层的输出作为下一层的输入。通过这种方式，就可以实现对输入信息进行分级表达了。
&&&&&& 另外，前面是假设输出严格地等于输入，这个限制太严格，我们可以略微地放松这个限制，例如我们只要使得输入与输出的差别尽可能地小即可，这个放松会导致另外一类不同的Deep Learning方法。上述就是Deep Learning的基本思想。
六、浅层学习（Shallow Learning）和深度学习（Deep Learning）
&&&&&& 浅层学习是机器学习的第一次浪潮。
&&&&&& 20世纪80年代末期，用于人工神经网络的反向传播算法（也叫Back Propagation算法或者BP算法）的发明，给机器学习带来了希望，掀起了基于统计模型的机器学习热潮。这个热潮一直持续到今天。人们发现，利用BP算法可以让一个人工神经网络模型从大量训练样本中学习统计规律，从而对未知事件做预测。这种基于统计的机器学习方法比起过去基于人工规则的系统，在很多方面显出优越性。这个时候的人工神经网络，虽也被称作多层感知机（Multi-layer
Perceptron），但实际是种只含有一层隐层节点的浅层模型。
&&&&&&& 20世纪90年代，各种各样的浅层机器学习模型相继被提出，例如支撑向量机（SVM，Support Vector Machines）、 Boosting、最大熵方法（如LR，Logistic Regression）等。这些模型的结构基本上可以看成带有一层隐层节点（如SVM、Boosting），或没有隐层节点（如LR）。这些模型无论是在理论分析还是应用中都获得了巨大的成功。相比之下，由于理论分析的难度大，训练方法又需要很多经验和技巧，这个时期浅层人工神经网络反而相对沉寂。
&&&&&&&&深度学习是机器学习的第二次浪潮。
&&&&&&& 2006年，加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点：1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2）深度神经网络在训练上的难度，可以通过“逐层初始化”（layer-wise pre-training）来有效克服，在这篇文章中，逐层初始化是通过无监督学习实现的。
&&&&&&& 当前多数分类、回归等学习方法为浅层结构算法，其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受到一定制约。深度学习可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示，并展现了强大的从少数样本集中学习数据集本质特征的能力。（多层的好处是可以用较少的参数表示复杂的函数）
&&&&&&& 深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。区别于传统的浅层学习，深度学习的不同在于：1）强调了模型结构的深度，通常有5层、6层，甚至10多层的隐层节点；2）明确突出了特征学习的重要性，也就是说，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。
七、Deep learning与Neural Network
&&&&&&& 深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习是无监督学习的一种。
&&&&&&& 深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。
&&&&&& Deep learning本身算是machine learning的一个分支，简单可以理解为neural network的发展。大约二三十年前，neural network曾经是ML领域特别火热的一个方向，但是后来确慢慢淡出了，原因包括以下几个方面：
1）比较容易过拟合，参数比较难tune，而且需要不少trick；
2）训练速度比较慢，在层次比较少（小于等于3）的情况下效果并不比其它方法更优；
&&&&&& 所以中间有大约20多年的时间，神经网络被关注很少，这段时间基本上是SVM和boosting算法的天下。但是，一个痴心的老先生Hinton，他坚持了下来，并最终（和其它人一起Bengio、Yann.lecun等）提成了一个实际可行的deep learning框架。
&&&&&&& Deep learning与传统的神经网络之间有相同的地方也有很多不同。
&&&&&&& 二者的相同在于deep learning采用了神经网络相似的分层结构，系统由包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间相互无连接，每一层可以看作是一个logistic regression模型；这种分层结构，是比较接近人类大脑的结构的。
&&&&&&& 而为了克服神经网络训练中的问题，DL采用了与神经网络很不同的训练机制。传统神经网络中，采用的是back propagation的方式进行，简单来讲就是采用迭代的算法来训练整个网络，随机设定初值，计算当前网络的输出，然后根据当前输出和label之间的差去改变前面各层的参数，直到收敛（整体是一个梯度下降法）。而deep learning整体上是一个layer-wise的训练机制。这样做的原因是因为，如果采用back propagation的机制，对于一个deep
network（7层以上），残差传播到最前面的层已经变得太小，出现所谓的gradient diffusion（梯度扩散）。这个问题我们接下来讨论。
八、Deep learning训练过程
8.1、传统神经网络的训练方法为什么不能用在深度神经网络
&&&&&& BP算法作为传统训练多层网络的典型算法，实际上对仅含几层网络，该训练方法就已经很不理想。深度结构（涉及多个非线性处理单元层）非凸目标代价函数中普遍存在的局部最小是训练困难的主要来源。
BP算法存在的问题：
（1）梯度越来越稀疏：从顶层越往下，误差校正信号越来越小；
（2）收敛到局部最小值：尤其是从远离最优区域开始的时候（随机值初始化会导致这种情况的发生）；
（3）一般，我们只能用有标签的数据来训练：但大部分的数据是没标签的，而大脑可以从没有标签的的数据中学习；
8.2、deep learning训练过程
&&&&&& 如果对所有层同时训练，时间复杂度会太高；如果每次训练一层，偏差就会逐层传递。这会面临跟上面监督学习中相反的问题，会严重欠拟合（因为深度网络的神经元和参数太多了）。
&&&&&& 2006年，hinton提出了在非监督数据上建立多层神经网络的一个有效方法，简单的说，分为两步，一是每次训练一层网络，二是调优，使原始表示x向上生成的高级表示r和该高级表示r向下生成的x'尽可能一致。方法是：
1）首先逐层构建单层神经元，这样每次都是训练一个单层网络。
2）当所有层训练完后，Hinton使用wake-sleep算法进行调优。
&&&&&& 将除最顶层的其它层间的权重变为双向的，这样最顶层仍然是一个单层神经网络，而其它层则变为了图模型。向上的权重用于“认知”，向下的权重用于“生成”。然后使用Wake-Sleep算法调整所有的权重。让认知和生成达成一致，也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。比如顶层的一个结点表示人脸，那么所有人脸的图像应该激活这个结点，并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。Wake-Sleep算法分为醒（wake）和睡（sleep）两个部分。
1）wake阶段：认知过程，通过外界的特征和向上的权重（认知权重）产生每一层的抽象表示（结点状态），并且使用梯度下降修改层间的下行权重（生成权重）。也就是“如果现实跟我想象的不一样，改变我的权重使得我想象的东西就是这样的”。
2）sleep阶段：生成过程，通过顶层表示（醒时学得的概念）和向下权重，生成底层的状态，同时修改层间向上的权重。也就是“如果梦中的景象不是我脑中的相应概念，改变我的认知权重使得这种景象在我看来就是这个概念”。
deep learning训练过程具体如下：
1）使用自下上升非监督学习（就是从底层开始，一层一层的往顶层训练）：
&&&&&& 采用无标定数据（有标定数据也可）分层训练各层参数，这一步可以看作是一个无监督训练过程，是和传统神经网络区别最大的部分（这个过程可以看作是feature learning过程）：
&&&&&& 具体的，先用无标定数据训练第一层，训练时先学习第一层的参数（这一层可以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层），由于模型capacity的限制以及稀疏性约束，使得得到的模型能够学习到数据本身的结构，从而得到比输入更具有表示能力的特征；在学习得到第n-1层后，将n-1层的输出作为第n层的输入，训练第n层，由此分别得到各层的参数；
2）自顶向下的监督学习（就是通过带标签的数据去训练，误差自顶向下传输，对网络进行微调）：
&&&&&& 基于第一步得到的各层参数进一步fine-tune整个多层模型的参数，这一步是一个有监督训练过程；第一步类似神经网络的随机初始化初值过程，由于DL的第一步不是随机初始化，而是通过学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能够取得更好的效果；所以deep learning效果好很大程度上归功于第一步的feature learning过程。
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：5446552次
积分：25512
积分：25512
排名：第165名
原创：116篇
转载：11篇
评论：3349条
关注：机器学习、计算机视觉、人机交互和人工智能等领域。
交流请发邮件，不怎么看博客私信^-^
(4)(2)(1)(1)(2)(2)(1)(7)(5)(4)(4)(9)(2)(6)(1)(10)(5)(8)(14)(7)(8)(25)}

我爱游戏网