为什么 deep learning 中文版最先在语音识别和图像处理领域取得突破

点击联系发帖人 时间：2017-02-19 04:39

deeplearning4j 中文

深度|为什么 Deep Learning 最先在语音识别和图像处理领域取得突破？_中国人工智能学会_传送门
你是真实用户吗(Are you a robot)?
我们怀疑你不是真实用户，已对你的访问做了限制。如果您是真实用户，非常抱歉我们的误判对您造成的影响，您可以通过QQ()或电子邮件()反馈给我们，并在邮件和QQ请求信息里注明您的IP地址：220.177.198.53，我们会尽快恢复您的正常访问权限。另外，如果您不是在访问的当前页面，我们建议您移步
或者在浏览器中输入以下地址：http://chuansong.me/n/ 访问，您所访问的网站是从抓取的数据，请直接访问，会有更好的体验和更及时的更新。We suspect you are a robot.We are really sorry if you are not,and you can email us () with your current IP address: 220.177.198.53 to get full access to .If you are not accessing
for the current page,you'd better visit
for better performance,as the current website you are accessing is just spam.
觉得不错，分享给更多人看到
中国人工智能学会微信二维码
分享这篇文章
8月5日 21:41
中国人工智能学会最新头条文章
中国人工智能学会热门头条文章后使用快捷导航没有帐号？
查看: 232|回复: 4
为什么 Deep Learning 最先在语音识别和图像处理领域取得突破
金牌会员, 积分 1764, 距离下一级还需 1236 积分
论坛徽章:14
Deep learning实际上同时推动了很多领域的发展。一个我所知道的例子是NLP中词向量（Word Embedding）方法对传统的提升[1]；而且我相信，deep learning还会进一步推动更多AI领域的发展。
当然，DeepLearning最为人所关注也表现最明显的，就是使语音、获得了长足的进步。其实有的同学已经回答得很漂亮了，只是我忍不住再谈谈自己的理解，抛砖引玉，大家共同讨论。
本着读书人简单问题复杂化……啊呸，是论证完整化的标准，我觉得可以从以下三点递进地解决题主的疑问：
1.&&为什么突然间火起来了？
2.&&为什么会应用到和中？
3.&&为什么能成功地应用到语音、中，取得突破？
为了让更多对深度学习感兴趣的朋友看懂，下面我尽可能地用简单的语言来阐述下我的看法（叙述中假设你已经大致知道什么是深度学习和，了解的基本原理，顺便认为你已经浏览了其他答案）：
==============================我是分割线============================
1.为什么深度学习突然间火起来了？
谈到这个问题，如果在五六年之前，很多人肯定会说是因为Hinton在Science上的那篇论文“Reducing the dimensionality ofdata with neural networks”。
虽然“号称”自己可以拟合任何函数，并且可以模拟人脑的运作形式，但是这一切都是建立在足够深足够大的基础上。没有了规模，浅层的神经网络啥都达不到。而人们发现，优化多层神经网络是一个高度非凸的问题，当网络层数太多了之后，训练就难以收敛，或者只能收敛到一个次优的局部最优解，性能反而还不如一两层的浅模型。这个严重的问题直接导致了神经网络方法的上一次衰败。
在2006年Hinton的那篇文章中，他提出了利用RBM预训练的方法，即用特定结构将网络先到一个差不多“好”的程度，再回到传统的训练方法（反向传播BP）。这样得到的深度网络似乎就能达到一个不错的结果，从一定程度上解决了之前网络“深不了”的问题。在这个框架下，深度学习重新得到了人们重视，一批新方法被发明出来（Denoise Autoencoder，Dropout，ReLU……），都让神经网络有了前所未有的“更深”的可能。
但是我们现在再回过头来看这个问题，我们应该加入两个甚至更加关键的元素：大数据和
在如今的，近十年来数据量的积累是爆炸式的。几年后人们发现，只要有足够多的数据，即便不做预训练，也能使深层网络得到非常好的结果。而针对神经网络CNN或者LSTM来说，预训练本身也不像全连接那么好做了。一个技术不能很大地提升性能，还需要researcher辛辛苦苦想，需要程序员辛辛苦苦写代码，你说谁干呢……现在的语音识别或图像识别系统，如果拥有大量的训练样本，基本都是没有预训练步骤的。
而高性能计算是与大数据相辅相成的，想象你有好多好多数据（百万幅图片，上万小时语音），但是计算速度跟不上，训练一个网络需要好几年（做的人应该知道这个完全没有夸张吧），那这个研究也完全不必要做了吧？这也是为什么有人认为神经网络火起来完全是因为GPU使得计算方法更快更好了。从这个意义上，GPU并行计算的发展确实极大推动了深度学习的普及。
有大数据和高性能计算打下最坚实的基础，人的聪明才智是无穷无尽的。那些笃信深度学习的学者们使用了各种各样的算法激发深度学习的潜能，比如微软的残差学习[2]。否则，再多的数据也不能把传统的神经网络训练到152层啊。
注册会员, 积分 139, 距离下一级还需 61 积分
论坛徽章:6
这个问题问的好啊，需要大家一起讨论。
中级会员, 积分 420, 距离下一级还需 80 积分
论坛徽章:7
因为文本相比语音和图像，其困难之处已经到了语义层面，所以更难解决！
金牌会员, 积分 1482, 距离下一级还需 1518 积分
论坛徽章:9
期待楼主对第二个和第三个问题的看法，我也很感兴趣
中级会员, 积分 229, 距离下一级还需 271 积分
论坛徽章:0
楼主原创的吗，写的挺好的}

我爱游戏网