在训练神经网络训练方法时 下面哪些说法是正确的当样本是反例

小木虫 --- 600万学术达人喜爱的学术科研平台
&&查看话题
人工神经网络训练时样本大小问题
人工神经网络训练时,训练样本过大或者过小都会导致什么结果?还有就是加入一个3*4*1的网络,最大或者最小训练样本比较合适······
用来预测,就是如何提高泛化能力·····不过我觉得这东西理论性强点····
这个方法行,我在不断试,不过没有点理论依据,假如试出来也不好解释
主意不错,不过,哎,说实话, 我真的不怎么会,并且人还懒,不愿意去尝试新东西
北京学而思教育科技有限公司 地址:北京市海淀区北三环甲18号中鼎大厦A座1层102室 电话:010- 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
【精品】2基于Hopfield神经网络的脱机手写数字识别
下载积分:880
内容提示:【精品】2基于Hopfield神经网络的脱机手写数字识别
文档格式:PDF|
浏览次数:0|
上传日期: 05:47:23|
文档星级:
全文阅读已结束,如果下载本文需要使用
 880 积分
下载此文档
该用户还上传了这些文档
【精品】2基于Hopfield神经网络的脱机手写数字识别
官方公共微信神经网络从被人忽悠到忽悠人(五) - 推酷
神经网络从被人忽悠到忽悠人(五)
前面一节讲过,Vladimir Vapnik的出现,在神经网络的发展过程中起到了很关键的作用,而这种所谓的作用就是挑战。Vladimir Vapnik到底提出了什么理论能有这么大的影响呢?大家都非常熟悉的分类方法:支持向量机(SVM)
Vladimir Vapnik
支持向量机(SVM)
Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机(Support Vector Machine,简称SVM)。支持向量机的提出有很深的理论背景。换句话说,SVM的理论基础不是那么的好理解的。
SVM主要是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;以前讲升高维度处理问题,现在讲降维攻击。
函数间隔(functional margin)和几何间隔(geometric margin)
从下图可以看出,把x和o分开来,有非常多的直线能够把它区分出来,那什么样的直线是最优的呢?最优的过程可以取函数间距过程,每个样本到直线的垂直距离和他的分类乘积最大为最优,距离自带方向,分类也带正负,因此函数间隔代表了我们认为特征是正例还是反例的确信度。一条直线的标识方式有多种(参数的倍数也能代表同一条直线),这样就带来参数的多样性,需要采用归一化解决。
通过推到可以得到:
全局的几何间隔:
最优间隔分类器(optimal margin classifier)
回想前面我们提到我们的目标是寻找一个超平面,使得离超平面比较近的点能有更大的间距。也就是我们不考虑所有的点都必须远离超平面,我们关心求得的超平面能够让所有点中离它最近的点具有最大间距。形象的说,我们将上面的图看作是一张纸,我们要找一条折线,按照这条折线折叠后,离折线最近的点的间距比其他折线都要大。形式化表示为:
这下好了,只有线性约束了,而且是个典型的二次规划问题(目标函数是自变量的二次函数),处理二次规划问题有现成的方法,但需要较好的数学处理能力。求出w,b就能寻找到超平面,通过寻找一个线性的超平面来达到对数据进行分类的目的。不过,由于是线性方法,所以对非线性的数据就没有办法处理了,核函数能处理非线性的情况。
核函数(Kernels)
图中的两类数据,分别分布为两个圆圈的形状,不论是任何高级的分类器,只要它是线性的,就没法处理,SVM 也不行。因为这样的数据本身就是线性不可分的。
SVM 处理这种分类的方法,是把他们先投影到两外一个坐标下,再采用之前线性的方法进行处理。
对于非线性的情况,SVM 的处理方法是选择一个核函数,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。由于核函数的优良品质,这样的非线性扩展在计算量上并没有比原来复杂多少,这一点是非常难得的。当然,这要归功于核方法——除了 SVM 之外,任何将计算表示为数据点的内积的方法,都可以使用核方法进行非线性扩展。
svm方法有很强数学理论基础,svm的方法被大量的使用在图片识别,语音识别上,都取到了很好的效果。成为了90年代到现在较为流行的算法。
90年代,在贝尔实验室里,Yann Lecun和 Vapnik 常常就 神经网络和 SVM 两种技术的优缺点,常常讨论得非常的深入,慢慢的形成了svm方法的支持者和神经网络的信徒。
Scholkopf是Vapnik的大弟子,支持向量机与核方法研究的领军人物。据Scholkopf说,Vapnik当初发明支持向量机就是想’干掉’神经网络(He wanted to kill Neural Network)。支持向量机确实很有效,一段时间支持向量机一派占了上风。
很多人都认为svm是两成的神经网络。
近年来,神经网络一派的大师Hinton又提出了神经网络的Deep Learning算法,使神经网络的能力大大提高,可与支持向量机一比。Deep Learning假设神经网络是多层的,首先用Restricted Boltzmann Machine学习网络的结构,然后再通过Back Propagation学习网络的权值。关于Deep Learning的命名,Hinton曾开玩笑地说: I want to call SVM shallow learning. (注:shallow 有肤浅的意思)。其实Deep Learning本身的意思是深层学习,因为它假设神经网络有多层。
已发表评论数()
请填写推刊名
描述不能大于100个字符!
权限设置: 公开
仅自己可见
正文不准确
标题不准确
排版有问题
主题不准确
没有分页内容
图片无法显示
视频无法显示
与原文不一致在已有的基于深度学习的人脸识别框架中,每个任务(人脸鉴别、认证和属性分类等)是相互独立设计的。本文提出一种基于多任务框架的深度卷积网络,通过将人脸鉴别、认证和属性分类同时作为网络的目标函数,端到端地训练整个深度卷积网络。此网络可以同时完成上述三种任务,不需要额外的步骤,实验结果显示,即使在有限的数据支持下,该方法依然能够取得不错的性能。在LFW数据集上获得了97.3%的精度。
在人脸识别领域,Facebook提出了DeepFace,利用CNN网络进行人脸识别,性能与人工识别相媲美。香港中文大学提出了DeepID将其精度提升到99%以上。相比前者,DeepID采用更深的网络拓扑,利用识别和认证两种监督信息进行训练。
现有的识别方法的缺点第一是出于商业利益和隐私保护所采用的数据集并未公开,第二是模型训练的功能单一,无法同时完成不同的识别任务。
本文利用多任务学习机制,提出新的训练策略。将人脸鉴别、认证和属性分类结合训练深度神经网络,在只使用较少的数据的前提下,就达到了上述各大公司接近的性能(0.7M vs260M),因此本文提出的方法具有非常好的实际应用价值。
识别主要包含三大任务:认证、鉴别和属性分类。
人脸认证是判定给定的两张人脸是否属于同一个人;人脸鉴别是得到给定人脸所对应的身份(ID);属性分类是获取人脸的一些属性特征,如:性别、是否秃顶、是否佩戴眼镜等。
多任务人脸识别:
利用多任务学习训练卷积网络和利用该网络完成不同的人脸识别任务。
本文通过以下三个阶段训练网络:第一阶段,利用鉴别任务所产生的交叉熵损失对网络进行训练,使网络拥有一个良好的初值;
第二阶段,加入认证任务所产生的三元组损失对先前的网络进行进一步训练,提高网络的识别精度;第三阶段,在之前的训练基础上,加入属性分类任务对网络进行训练,使网络可以同时完成认证、鉴别和属性分类三类任务。
对于人脸验证任务,分别提取两张标准脸的CNN特征,之后对其进行相似度测量,常用的度量方法有欧式距离、余弦距离以及联合贝叶斯(Joint Bayes)方法。比较距离和阈值的关系即可确定是否通过验证。实验表明余弦距离相较欧式距离在人脸验证任务上具有更强的区分能力,而联合贝叶斯方法需要额外训练,时间复杂度较大。
对于人脸鉴别任务,提取待鉴别的标准脸的CNN特征后,与人脸库中已注册的人脸CNN特征进行比较,选取K近邻来获得人脸鉴别结果,返回相应特征所对应的名字。对于海量注册人脸识别,还可以利用哈希等技术加快检索速度。
对于人脸属性分类任务,将经过预处理的标准脸送入到已经训练好的卷积神经网络中,获取对应的人脸属性分类结果。
人脸鉴别任务是根据标准脸获取其对应的身份(ID)。根据该任务的特点,可以将人脸鉴别任务理解为一种多分类任务。假设数据集中采集自不同身份的N个人,那么本文 的网络需要对给定的人脸进行N类分类。在学习的过程中,网络一方面要对同一个人的表情和姿态的变化以及光照情况具有鲁棒性,分到同一类中;另一方面要区分相似人脸,分到不同类中。
对于给定的人脸图片,经过4次卷积池化和1次全连接后获得人脸所对应的特征,一般将全连接1称为深度嵌入(deep embedding),之后经过丢弃再进行N类分类。
在实验中,采用CASIA WebFaces的数据集进行训练,数据集中拥有10575个不同的人,因此这里就是10575类的分类问题。
为了提高网络的识别精度,在训练中进行了数据扩充,随机截取输入图片中固定输入区域的大小,这样可以有效克服因标注习惯的不同所产生的差异,抓住人脸各个部分的细节差异,有效防止网络过拟合。实际输入图片大小为144*144,随机截取大小为128*128.另外考虑到人脸的对称性,还对人脸进行水平方向的翻折。
认证鉴别网络训练
人脸认证是判定给定的两张人脸是否属于同一个人。2014年常采用的方法是siamese网的方法,采用对照损失函数(contrastive loss)来进行监督。对于同一个人的不同人脸图片在特征空间的距离尽可能小,不同的人脸图片距离不小于某个阈值。2015年Google的facenet采用三元组损失函数(triplet loss)取,该损失每次选取3张人脸,2张属于同一个人记做基准A和正例P,1张输入另一个人的记做反例N。对于同一个人的2张人脸在特征空间中的距离小于不同人脸的距离,其对应的损失函数为:
相比对照损失,三元损失更简单直接,并且在效果上优于对照损失,因此文中采用三元组损失作为认证任务损失函数。
但不同于FaceNet训练时仅采用三元组损失的做法,本位将训练而得到的鉴别网络作为网络初值,之后加入三元组损失作为监督信息。
这么做的好处:网络训练速度更快;同时考虑人脸识别中的鉴别和认证两大任务,有效提升了识别精度。
网络2是认证网络拓扑。在训练中,由于交叉熵损失和三元组的量纲不同,根据经验超参数λ = 0.001。
通过鉴别和认证两大任务训练后的网络,不但兼顾了特征空间中样本的概率分布,使网络更具泛化能力,而且还考虑了特征空间中样本的类内类间的距离关系,能对难例有更好的区分度。
认证鉴别属性分类网络训练
2015年CUHK发布了CelebA数据集,该数据集有40个人脸二元属性,例如戴眼镜与否、性别等。结合CASIA WebFaces数据集就可以训练多任务网络。认证鉴别网络的基础上,加入属性分类的监督信息,使网络可以同时进行人脸验证、鉴别和属性分类任务。为了消除人脸数据集中的姿态、位置、尺度的差异,CelebA中的人脸也需要进行预处理操作获取标准脸。网络3是认证鉴别网络。
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:46967次
积分:1250
积分:1250
排名:千里之外
原创:69篇
转载:18篇
译文:15篇
评论:44条
(1)(4)(17)(2)(15)(59)(3)(1)}

我要回帖

更多关于 bp神经网络训练样本 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信