为什么高中数学那么难为什么是c41 而不是c51

点击联系发帖人 时间：2017-07-24 12:19

为什么高中数学那么难

扫二维码下载作业帮
拍照搜题，秒出答案，一键查看所有搜题记录
下载作业帮安装包
扫二维码下载作业帮
拍照搜题，秒出答案，一键查看所有搜题记录
1,C52*C42;2,C41*C31;3,C41*C31+C83+C83;4,C51*C43+C52*C42+C53*C41
釮牆夼凝嘔Pxm0
扫二维码下载作业帮
拍照搜题，秒出答案，一键查看所有搜题记录
是组合吧~1,C52*C42=602,C41*C31=123,C41*C31+C83+C83=1244,C51*C43+C52*C42+C53*C41=120
为您推荐：
其他类似问题
扫描下载二维码&img src=&/v2-b35d201ffdba07b430984_b.jpg& data-rawwidth=&640& data-rawheight=&242& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-b35d201ffdba07b430984_r.jpg&&&p&选自arXiv&/p&&p&机器之心编译&/p&&blockquote&本论文技术性地介绍了三种最常见的神经网络：前馈神经网络、卷积神经网络和循环神经网络。且该文详细介绍了每一种网络的基本构建块，其包括了基本架构、传播方式、连接方式、激活函数、反向传播的应用和各种优化算法的原理。本文不仅介绍了这三种神经网络的基本原理与概念，同时还用数学表达式正式地定义了这些概念。这是一份十分全面的神经网络综述论文，机器之心简要摘取了部分章节，更详细和完整的论述请查看原论文。&/blockquote&&img src=&/v2-fc386ad25b9ae1482eb3c_b.jpg& data-rawwidth=&640& data-rawheight=&242& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-fc386ad25b9ae1482eb3c_r.jpg&&&p&论文地址：&a href=&/?target=https%3A//arxiv.org/pdf/.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&arxiv.org/pdf/&/span&&span class=&invisible&&2.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&目录&/p&&img src=&/v2-7cee263ef782ef5bf742a5_b.jpg& data-rawwidth=&640& data-rawheight=&701& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-7cee263ef782ef5bf742a5_r.jpg&&&p&&br&&/p&&img src=&/v2-bc17fb0ee2f6cef0e70b06_b.jpg& data-rawwidth=&640& data-rawheight=&434& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-bc17fb0ee2f6cef0e70b06_r.jpg&&&p&&br&&/p&&p&简介&/p&&p&该论文旨在用一种技术性但是偏教学的方式介绍三种常见的神经网络架构形式，随着章节的深入，内容的复杂度逐渐增加。&/p&&p&第 4 章首先介绍引入的第一种网络类型：常规前馈神经网络，它本身是经典感知机 [8] 算法的进化版本。大家应该看到后者是非线性回归，前馈网络一层层堆叠感知器层。&/p&&p&我们还在第 4 章介绍了最简单的神经网络层的基本构建块：加权平均（weight averaging）和激活函数（activation function），整个训练的目的是最小化适应任务（分类或回归）的损失函数。反向传播算法的更多技术细节详见第 4 章附录，附录中还包含对先进前馈神经网络 ResNet 的介绍。你可以找到前馈网络的矩阵描述。&/p&&p&第 5 章中，我们介绍了第二种神经网络类型：卷积网络，尤其是适用于处理和标注图像的卷积网络。这意味着我们要介绍与之相关的数学工具：卷积、池化、步幅等等。我们之后会介绍多个卷积架构，附录中再次详细介绍本章主要内容较难的步骤。&/p&&p&最后，第 6 章介绍了适合时间序列数据的网络架构——循环神经网络。前面两章内容的新发现和修订将在本章的主要内容中进行介绍，附录介绍有助于理解该网络架构最复杂公式的知识。&/p&&p&第 4 章前馈神经网络&/p&&p&本章，我们看一下第一种神经网络：常规前馈神经网络（FNN）。该网络不考虑输入数据可能具备的任何特定结构。尽管如此，它仍是非常强大的机器学习工具，尤其是与先进的正则化技术一起使用时。这些技术（稍后将会介绍）帮助解决人们处理「深度」网络时遇到的训练问题：神经网络有大量隐藏层，隐藏层非常难以训练（梯度消失和过拟合问题）。&/p&&p&4.2 前馈神经网络架构&/p&&p&图 4.1：有 N + 1 层（N - 1 个隐藏层）的神经网络。浅层网络架构仅使用一个隐藏层。深度学习需要使用多个隐藏层，通常包含同样数量的隐藏神经元。数量大约是输入和输出变量数量的平均值。&/p&&p&FNN 由一个输入层、一个（浅层网络）或多个（深层网络，因此叫作深度学习）隐藏层，和一个输出层构成。每个层（除输出层以外）与下一层连接。这种连接是 FNN 架构的关键，具有两个主要特征：加权平均值和激活函数。接下来我们将深入讲解这些特征。&/p&&p&4.4 加权平均&/p&&p&FNN 很重要的一个概念就是加权平均过程，即将前一层给神经元的激励值和对应的权重矩阵相乘而得出后一个神经元的输入值，这一过程展示在下图 4.2 中，我们可以说前一层神经元的加权和就是后一层神经元的输入。&/p&&p&正式地，加权平均的过程可以使用如下方程式表达：&/p&&p&其中 v∈[0,N-1]、f∈[0,(F_v+1)-1]、t∈[0,(T_mb)- 1]。e 代表包括或排除一个偏置项，因为实践中我们经常使用批量归一化，所以 e 可以设为 0。&/p&&p&4.5 激活函数&/p&&p&每一层的隐藏神经元可以定义为：&/p&&img src=&/v2-3afc9b3be4e2b4c208b8f7fe_b.jpg& data-rawwidth=&461& data-rawheight=&48& class=&origin_image zh-lightbox-thumb& width=&461& data-original=&/v2-3afc9b3be4e2b4c208b8f7fe_r.jpg&&&p&其中其中 v∈[0,N-1]、f∈[0,(F_v+1)-1]、t∈[0,(T_mb)- 1]。在这里 g 为激活函数，FNN 另外一个十分重要的元素，因为激活函数的非线性属性，所以它允许预测任意的输出数据。在实践中，g 通常采取以下描述的非线性函数作为激活函数。&/p&&p&4.5.1 Sigmoid 函数&/p&&p&Sigmoid 函数的值域为 [0,1]，它的表达式为如下：&/p&&img src=&/v2-49fce8b5e4b8d_b.jpg& data-rawwidth=&466& data-rawheight=&56& class=&origin_image zh-lightbox-thumb& width=&466& data-original=&/v2-49fce8b5e4b8d_r.jpg&&&p&Sigmoid 函数的导数可以表达为：&/p&&img src=&/v2-ffda852d000f27ba44945_b.jpg& data-rawwidth=&473& data-rawheight=&55& class=&origin_image zh-lightbox-thumb& width=&473& data-original=&/v2-ffda852d000f27ba44945_r.jpg&&&p&该激活函数如今并不常用，因为它的梯度太容易饱和，不过 RNN-LSTM 网络如今还会需要用到它。&/p&&img src=&/v2-a52bbcb48547dece6d0c6c_b.jpg& data-rawwidth=&442& data-rawheight=&349& class=&origin_image zh-lightbox-thumb& width=&442& data-original=&/v2-a52bbcb48547dece6d0c6c_r.jpg&&&p&图 4.3：Sigmoid 函数和它的导数&/p&&p&4.5.2 tanh 函数&/p&&p&tanh 函数的值域为 [- 1, 1 ]，它的表达式如下：&/p&&img src=&/v2-d93abf441ad_b.jpg& data-rawwidth=&483& data-rawheight=&76& class=&origin_image zh-lightbox-thumb& width=&483& data-original=&/v2-d93abf441ad_r.jpg&&&p&tanh 函数的导数为：&/p&&img src=&/v2-06f91aa1e6fa5b0aed375d95bc22b91a_b.jpg& data-rawwidth=&467& data-rawheight=&49& class=&origin_image zh-lightbox-thumb& width=&467& data-original=&/v2-06f91aa1e6fa5b0aed375d95bc22b91a_r.jpg&&&p&tanh 激活函数因为 ReLU 函数的普及使用而不那么流行了。&/p&&img src=&/v2-db68fbe71470_b.jpg& data-rawwidth=&447& data-rawheight=&365& class=&origin_image zh-lightbox-thumb& width=&447& data-original=&/v2-db68fbe71470_r.jpg&&&p&图 4.4：tanh 函数和它的导数&/p&&p&然而 tanh 函数仍然用于许多标准的 RNN-LSTM 模型（6）。&/p&&p&4.5.3 ReLU 函数&/p&&p&线性修正单元（ReLU）的值域为 [0,+∞]，它的表达式为：&/p&&img src=&/v2-aaaaefcf61a6d8e437295_b.jpg& data-rawwidth=&522& data-rawheight=&101& class=&origin_image zh-lightbox-thumb& width=&522& data-original=&/v2-aaaaefcf61a6d8e437295_r.jpg&&&p&ReLU 的导数为：&/p&&img src=&/v2-0abbac80db6_b.jpg& data-rawwidth=&481& data-rawheight=&100& class=&origin_image zh-lightbox-thumb& width=&481& data-original=&/v2-0abbac80db6_r.jpg&&&p&&br&&/p&&img src=&/v2-cab1dcf517516dbea725_b.jpg& data-rawwidth=&416& data-rawheight=&371& class=&content_image& width=&416&&&p&图 4.5：线性修正单元（ReLU）函数和它的导数&/p&&p&ReLU 是如今应用最广泛的激活函数。该函数还有两个变体：渗漏线性修正单元（ReLU）和指数线性单元（ELU）。引进这些变体的原因是 ReLU 激活函数可能「kill」特定的隐藏神经元：一旦 ReLU 关闭（即处于零值），它将不会被再次激活。&/p&&p&4.5.4 The leaky-ReLU function（略）&/p&&p&&br&&/p&&img src=&/v2-edfc0baf2b092_b.jpg& data-rawwidth=&452& data-rawheight=&322& class=&origin_image zh-lightbox-thumb& width=&452& data-original=&/v2-edfc0baf2b092_r.jpg&&&p&&br&&/p&&p&图 4.6：leaky-ReLU 函数和它的导数&/p&&p&4.5.5 The ELU function（略）&/p&&p&&br&&/p&&img src=&/v2-bf0fd19a6262bad89bea_b.jpg& data-rawwidth=&448& data-rawheight=&354& class=&origin_image zh-lightbox-thumb& width=&448& data-original=&/v2-bf0fd19a6262bad89bea_r.jpg&&&p&&br&&/p&&p&图 4.7 ：ELU 函数和它的导数&/p&&p&4.6 FNN 层级&/p&&p&4.6.1 输入层&/p&&p&输入层是 FNN 的第一层神经元，它需要将输入数据传入 FNN 中。在全连接神经网络中，输入层的神经元数量但与特征向量的长度相等，比如说 MNIST 数据集的图像为 28×28，那么特征向量的长度就为 764。&/p&&p&4.6.2 全连接层&/p&&p&全连接操作即运算层级之间的加权平均值和激活函数，即前一层的神经元输出值加权和为后一层的输入值，并将该输入值投入激活函数中以产生该层级的输出值。&/p&&p&4.6.3 输出层&/p&&p&FNN 的输出层可以表示为：&/p&&p&&br&&/p&&img src=&/v2-b3f2fd20b7684bec661f5f69ab2c0b33_b.jpg& data-rawwidth=&472& data-rawheight=&64& class=&origin_image zh-lightbox-thumb& width=&472& data-original=&/v2-b3f2fd20b7684bec661f5f69ab2c0b33_r.jpg&&&p&&br&&/p&&p&其中 o 为输出函数。&/p&&p&4.7 损失函数&/p&&p&损失函数评估了 FNN 在估计数据并执行预测时的误差，通常是我们判断模型在一定权重下执行任务好坏的依据。损失函数一般是计算真实值和预测值之间的距离而判断误差。对于回归问题来说，简单地使用均方误差（MSE）就可以评估预测值与真实值之间的距离：&/p&&img src=&/v2-8c0eac5fea01b8969ecb700_b.jpg& data-rawwidth=&488& data-rawheight=&67& class=&origin_image zh-lightbox-thumb& width=&488& data-original=&/v2-8c0eac5fea01b8969ecb700_r.jpg&&&p&对于分类任务来说，损失函数一般可以使用交叉熵函数。针对预测分布最小化交叉熵函数就等价于 KL 散度，所以它评估了预测分布和真实分布之间的距离：&/p&&img src=&/v2-537dc2c2fb18ef0fbec522a14aa293b4_b.jpg& data-rawwidth=&528& data-rawheight=&86& class=&origin_image zh-lightbox-thumb& width=&528& data-original=&/v2-537dc2c2fb18ef0fbec522a14aa293b4_r.jpg&&&p&4.8 正则化技术&/p&&p&在处理深度学习技术时，一个重大难题是高效训练神经网络。为了解决该问题，已经提出了多种正则化技术。这部分对这些技术进行了回顾。&/p&&p&4.9 反向传播&/p&&p&反向传播是减少损失函数错误的标准技术，只要准确地预测需要哪一个就行。就像名字所示，在 FNN 网络中反向传播输出层的错误，以便于更新权重。在实际中，我们需要计算大量的梯度，这是一项冗长的计算任务。然而，如果表现准确，这也是 FN 中最有用、最重要的任务。4.10 梯度下降使用哪些数据样本&/p&&p&刚开始，我们显示了用来训练模型的数据样本。该程序重复了很多次（每一次是一个 epoch)。但在文献资料中，共有三种从数据中进行采样的方法：Full-bath、随机梯度下降、小批量梯度下降。&/p&&p&4.11 梯度优化技术&/p&&p&一旦我们在反向传播过程中计算了梯度，那么我们接下来就需要考虑如何使用这些梯度更新权重了。可能最自然和直观的方法就是直接使用梯度下降更新权重，梯度下降的更新表达式为：&/p&&img src=&/v2-d98f676df35b59277cb7cae8c7d4caae_b.jpg& data-rawwidth=&412& data-rawheight=&52& class=&content_image& width=&412&&&p&其中η为超参数学习率，确定η最好的方法是在下降点执行直线搜索而求得，不过这样的计算成本非常高，所以我们一般可以根据经验或交叉验证等方法确定该超参数。同时学习率还可以使用指数衰减更进一步加快收敛速度。当我们在使用小批量梯度下降时，根据损失函数而更新的权重很容易陷入局部极小值，因此有一些方法可以避免这种风险。我们会在下一部分介绍它们。&/p&&p&4.11.1 动量（Momentum）&/p&&p&Momentum[10] 引进了一个新向量 v_e，该向量对前面更新的 epoch 保留了一定的记忆。其中 e 代表 epoch 的数量，我们暂时不使用 f、f'和 v 的指代以简化标记方法。因此我们有：&/p&&p&&br&&/p&&img src=&/v2-fd04ece686de192ac9cf7c9_b.jpg& data-rawwidth=&392& data-rawheight=&49& class=&content_image& width=&392&&&p&权重在 epoch e 中更新的表达式为：&/p&&img src=&/v2-2e79b8df03ded6cb_b.jpg& data-rawwidth=&384& data-rawheight=&38& class=&content_image& width=&384&&&p&γ为模型的新参数，其经常可以设置为 0.9，但它可以根据交叉验证而得到更新与优化。&/p&&p&4.11.2 Nesterov accelerated gradient（略）&/p&&p&4.11.3 Adagrad（略）&/p&&p&4.11.4 RMSprop &/p&&p&因为在 Adagrad，权重从第一个 epoch 开始添加梯度就会一直单调递减。这一问题可以通过 Adadelta 技术得到缓解，因此我们有：&/p&&img src=&/v2-8a515ad05e2ed110c46d4db_b.jpg& data-rawwidth=&416& data-rawheight=&40& class=&content_image& width=&416&&&p&其中γ为模型的新参数，其经常可以设置为 0.9。Adadelta 的更新规则可以表达为 Adagrad 那样：&/p&&img src=&/v2-9fe38b12aeb0f446dee22c5_b.jpg& data-rawwidth=&420& data-rawheight=&55& class=&content_image& width=&420&&&p&其中η常常设置为固定值（10^-3）。&/p&&p&4.11.5 Adadelta（略）&/p&&p&4.11.6 Adam&/p&&p&Adam[14] 可以通过以下两个向量追踪梯度和二阶导：&/p&&img src=&/v2-17e09db59de3aac7d0111_b.jpg& data-rawwidth=&580& data-rawheight=&49& class=&origin_image zh-lightbox-thumb& width=&580& data-original=&/v2-17e09db59de3aac7d0111_r.jpg&&&p&其中β1 和 β2 参数通常可以分别设置为 0.9 和 0.999。但是 Adam 算法的稳健和强大可以保证整个学习过程极少依赖于它们的取值。为了避免第一次迭代陷入数值问题，该向量可以标准化为：&/p&&img src=&/v2-69c13fef6e27eb6b4ec747d67095f8cd_b.jpg& data-rawwidth=&492& data-rawheight=&65& class=&origin_image zh-lightbox-thumb& width=&492& data-original=&/v2-69c13fef6e27eb6b4ec747d67095f8cd_r.jpg&&&p&在进行权重更新前：&/p&&img src=&/v2-a8b7c54ab58c1dde604dda526ffd8258_b.jpg& data-rawwidth=&424& data-rawheight=&48& class=&origin_image zh-lightbox-thumb& width=&424& data-original=&/v2-a8b7c54ab58c1dde604dda526ffd8258_r.jpg&&&p&这一最优化技术在整个过程中隐含使用的学习率衰减为：&/p&&img src=&/v2-2ea3bcc549ae5d97ca32c446a8598e8f_b.jpg& data-rawwidth=&380& data-rawheight=&40& class=&content_image& width=&380&&&p&其中α_0 可由交叉验证决定，η_0 通常是初始化为 10^-3 到 10^-2。&/p&&p&4.12 权重初始化&/p&&p&在没有任何正则化的情况下，训练神经网络令人望而却步，因为要对权重初始化条件进行微调。这也是为什么神经网络经历过寒冬的一个原因。因为 dropout 与批规范化技术，该问题有所改进，但我们不能用对称的方式初始化权重（例如都是 0），也不能把它们初始化的太大。一个好的 heuristic 是&/p&&img src=&/v2-b8c2e5b4ed19105a5aca40b_b.jpg& data-rawwidth=&468& data-rawheight=&66& class=&origin_image zh-lightbox-thumb& width=&468& data-original=&/v2-b8c2e5b4ed19105a5aca40b_r.jpg&&&p&&br&&/p&&h2&第五章卷积神经网络&/h2&&p&5.1 简介&/p&&p&本章中我们将回顾神经网络的第二个类型，可能也是最流行的一个：卷积神经网络（CNN）。CNN 尤其擅长图像分类。我们将会回顾其相关创新并与 FNN 相对比。其中卷积和池化是 CNN 的构建基元。另外，在 FNN 部分所推导的正则化技巧方面，我们将会观察需要对 CNN 做出哪些修改？最后，从 LeNet 到 ResNet，我们将会介绍最常使用的 CNN 架构。&/p&&p&5.2 CNN 架构&/p&&p&CNN 由若干个卷积和池化操作组成，通常跟随着一个或多个全连接层（与传统的 FNN 层相似）。&/p&&img src=&/v2-9b6d6049781dbe1ab29f3_b.jpg& data-rawwidth=&640& data-rawheight=&163& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-9b6d6049781dbe1ab29f3_r.jpg&&&p&图 5.1：一个典型的 CNN 架构（受到 LeNet 启发）：卷积操作之后跟着池化操作，直到每一个特征图的大小降为 1。然后再引入全连接层。&/p&&p&5.4 改进批归一化（MBN）&/p&&p&在 CNN 中，通过以下方式改进批归一化（这里，与常规 FNN 不同，并非所有隐藏层需要被批归一化。实际上这一操作并不在池化层的输出上执行。因此我们将针对正则化和批归一化的隐藏层使用不同的名字 v 和 n。）&/p&&img src=&/v2-7c601a682ceec9e9a7e9850_b.jpg& data-rawwidth=&640& data-rawheight=&115& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-7c601a682ceec9e9a7e9850_r.jpg&&&p&和&br&&/p&&img src=&/v2-e151c60d13d6e83b51bebf9fe73d7cc3_b.jpg& data-rawwidth=&640& data-rawheight=&145& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-e151c60d13d6e83b51bebf9fe73d7cc3_r.jpg&&&p&由于两个额外的参数&/p&&img src=&/v2-3d2dd95955ced131e1c201b0c6b97177_b.jpg& data-rawwidth=&100& data-rawheight=&44& class=&content_image& width=&100&&&p&，恒等变换可被实现&/p&&img src=&/v2-717c90e69233bae057ae5e2148ed2cce_b.jpg& data-rawwidth=&640& data-rawheight=&79& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-717c90e69233bae057ae5e2148ed2cce_r.jpg&&&p&对于交叉验证和测试集的评估（e 为迭代／epochs 的数量），我们可以计算&/p&&p&&br&&/p&&img src=&/v2-abffe8cd41bbe_b.jpg& data-rawwidth=&640& data-rawheight=&172& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-abffe8cd41bbe_r.jpg&&&p&&br&&/p&&p&并且测试时将被使用的是&/p&&img src=&/v2-7c51cbf200_b.jpg& data-rawwidth=&232& data-rawheight=&74& class=&content_image& width=&232&&&p&&br&&/p&&p&&br&&/p&&p&5.5 网络架构&/p&&p&我们现在来了解过去 20 年文献中使用的标准 CNN 架构，我们将按时间顺序介绍这些架构（到 2015 年底）。我们将采用以下图示进行介绍。&/p&&img src=&/v2-6aae0cabcfd85_b.jpg& data-rawwidth=&640& data-rawheight=&307& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-6aae0cabcfd85_r.jpg&&&p&图 5.8：不同层的图示&/p&&p&5.5.1 现实架构（Realistic architecture）&/p&&p&在现实架构中，每一个全连接层（除了最后一个输出层）后是一个 ReLU（或者其他）激活和批归一化步骤（这两个数据处理步骤可以颠倒顺序）。&/p&&img src=&/v2-e5a9ba0a82_b.jpg& data-rawwidth=&640& data-rawheight=&110& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-e5a9ba0a82_r.jpg&&&p&图 5.9：现实的全连接操作&/p&&p&对卷积层也是同样的操作&/p&&img src=&/v2-424c355b7bd14c335baa_b.jpg& data-rawwidth=&640& data-rawheight=&128& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-424c355b7bd14c335baa_r.jpg&&&p&图 5.10：现实的卷积操作&/p&&p&我们使用上图右侧的表示方法以简化表达，记住真正的 CNN 结构要更丰富。[16] 中详细介绍了 CNN 近期进展，现在我们转向深度学习社区使用的第一个流行 CNN。&/p&&p&5.5.2 LeNet&/p&&p&LeNet[3]（90 年代末）网络中包含一个输入，后面是两个卷积池化层和全连接层，最后是输出层。如图 5.11 所示。&/p&&img src=&/v2-a243d544dcb0_b.jpg& data-rawwidth=&640& data-rawheight=&140& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-a243d544dcb0_r.jpg&&&p&图 5.11：LeNet CNN&/p&&p&在处理大图像（224 × 224）时，使用较大的感受野和步幅。这有两个负面影响：一，给定权重矩阵中的参数与感受野大小成正比，因此感受野越大，参数越大。因此，该网络更容易过拟合。二，大步幅和大感受野意味着对图像微观结构的分析精细度降低。所有后续的 CNN 实现的目的都是解决这两个问题。&/p&&p&5.5.3 AlexNet&/p&&p&在 CNN 理论中，AlexNet[17] (2012) 并没有出现质的飞跃，模型性能的大幅度提升是因为更好的处理器能够处理更多的隐藏层。&/p&&p&&br&&/p&&img src=&/v2-f97147a69abe2f7a1aa8f98b1b71cd87_b.jpg& data-rawwidth=&640& data-rawheight=&116& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-f97147a69abe2f7a1aa8f98b1b71cd87_r.jpg&&&p&图 5.12：AlexNet CNN&/p&&p&5.5.4 VGG&/p&&p&The VGG[4] 网络 (2014) 采用了一个简单的标准：只有步长为 2 的 2 x 2 padding 和步长为 1 的 3 x 3 卷积（带有一个大小为 1 的 padding），因此通过卷积操作保存了图像宽度与高度的大小。&/p&&p&&br&&/p&&img src=&/v2-29e5b83ddd_b.jpg& data-rawwidth=&640& data-rawheight=&130& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-29e5b83ddd_r.jpg&&&p&图 5.13： VGG CNN&/p&&p&这一网络在处理 CNN 任务中是一个标准的深度学习架构。不过自出现以来其设计创新性已经降低了，因此不再是当前最优。&/p&&p&5.5.5 GoogleNet&/p&&p&GoogleNet [18] 引入新型层（现有层的联结）：inception 层（名字来自诺兰的电影《盗梦空间》）。GoogleNet 不通过简单的池化、卷积或全连接操作从 CNN 的一个层到达下一个层，而是平均下列架构的结果。&/p&&img src=&/v2-c9aefacf261db_b.jpg& data-rawwidth=&640& data-rawheight=&166& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-c9aefacf261db_r.jpg&&&p&图 5.14：Inception 模块&/p&&p&我们不会详细讲解 concat 层，因为上图所示 Google Net 不再是最先进的了。&/p&&p&&br&&/p&&img src=&/v2-0839726ccb384fbf74e189c8d01b46b0_b.jpg& data-rawwidth=&640& data-rawheight=&125& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-0839726ccb384fbf74e189c8d01b46b0_r.jpg&&&p&图 5.15 GoogleNet CNN&/p&&p&确实，平均多个卷积池化操作的结果来获取 CNN 下一个隐藏层被先进的 CNN——ResNet 大大简化。&/p&&p&5.5.6 ResNet&/p&&img src=&/v2-efd6ea293a52aa_b.jpg& data-rawwidth=&640& data-rawheight=&298& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-efd6ea293a52aa_r.jpg&&&p&图 5.16：Bottleneck 残差架构。左图比较简略，右图较为具体。共有步幅 1、padding 为 0 的 1 x 1 卷积，一个标准的 VGG 卷积和 1 x 1 卷积。图示对 ResNet 做出的两个重要更新是：BN 操作放在 ReLU 之后，最后的 ReLU 在额外操作之前。&/p&&p&ResNet[5] 不使用 VGG 网络用同样的规模进行卷积操作（除了第一个）的做法。它该考虑一个实验事实：全连接层（通常在同等规模内包含最多参数）对良好的网络性能并不必要。移除全连接层导致 CNN 参数数量大幅下降。此外，池化操作也越来越不常用，可能会被卷积操作取代。这为 ResNet 基本构建块，图 5.16 中的残差模块提供了基础部分。&/p&&p&残差模块有两个重点必须要提。一，通常的卷积-卷积-卷积（conv-conv-conv）结构将导致下一个输出（不考虑出于简化目的和当前时间的批归一化，表示无需在 1 x 1 卷积操作中进行 padding），&/p&&img src=&/v2-70ced47ff02b16d405a4b34e3e52d568_b.jpg& data-rawwidth=&640& data-rawheight=&208& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-70ced47ff02b16d405a4b34e3e52d568_r.jpg&&&p&残差模块将前面的方程修改为（隐含条件为输入特征的宽、大小和数量与输出是一样的）：&/p&&img src=&/v2-64add8db5c18dc12bfaf006ed3984626_b.jpg& data-rawwidth=&640& data-rawheight=&122& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-64add8db5c18dc12bfaf006ed3984626_r.jpg&&&p&尝试拟合输入的一个微小改善而不是输入，因此称之为残差。相比于传统架构，这允许网络在必要时最小化改善输入。第二，如果特征图的数量很重要，步长为 1 的 3 x 3 卷积就执行时间和倾向于过拟合（大量的参数）而言可以非常昂贵。这就是 1 x 1 卷积存在的原因，其目标仅是准备 3 x 3 卷积的输入，以减少特征图的数量，数量接着将通过残差模块的最后的 1x1 卷积恢复。第一个 1 x 1 卷积读作加权平均操作&/p&&img src=&/v2-39a4ca8a489eb3ed9ac894f_b.jpg& data-rawwidth=&640& data-rawheight=&81& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-39a4ca8a489eb3ed9ac894f_r.jpg&&&p&但是被设计成,第二个 1 x 1 卷积读取&/p&&img src=&/v2-39a76a92d7dfdc91dcc06515_b.jpg& data-rawwidth=&640& data-rawheight=&79& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-39a76a92d7dfdc91dcc06515_r.jpg&&&p&和,恢复最初的特征图大小。ResNet 架构接着堆栈大量残差模块（通常是 50 个），从卷积池层开始，以池化操作结束，从而获得一个输出函数可以直接应用的全连接层。下面是一张图示。&/p&&img src=&/v2-4f3b39ca7bfcbfbc7abc6192dea41b89_b.jpg& data-rawwidth=&640& data-rawheight=&123& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-4f3b39ca7bfcbfbc7abc6192dea41b89_r.jpg&&&p&图 5.17 ResNet CNN&/p&&p&ResNet 在一些常见的训练集中都达到了业内最佳的结果（如 CIFAR、MNIST 等）。以下我们将介绍 CNN 中标准架构（如 VGG）的反向传播算法。&/p&&p&5.6 反向传播(略）&/p&&p&在FNN中，我们只需要计算两种反向传播：从输出到全连接层，以及从全连接到全连接。在传统CNN中，需要计算4种新的传播方式：全连接到池化、池化到卷积、卷积到卷积，以及卷积到池化。&/p&&p&&br&&/p&&h2&第六章循环神经网络&/h2&&p&本章中，我们将介绍第三种神经网络架构：循环神经网络。与卷积神经网络（CNN）相比，这种网络引入了真正的新架构——而不仅仅是在空间方向上进行传播，数据也以新的时间依赖方向传递。在这里，我们将介绍第一个循环神经网络（RNN）架构，同时还有目前最流行的一种：长短期记忆（LSTM）神经网络。&/p&&img src=&/v2-fee7abead31ae_b.jpg& data-rawwidth=&640& data-rawheight=&332& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-fee7abead31ae_r.jpg&&&p&&br&&/p&&p&图 6.1 RNN 架构，数据在「空间」和「时间」域同时传播。在我们的例子中，时间尺寸为 8，而空间尺寸为 4。&/p&&p&这种类型的神经网络真正的新颖之处在于，我们正试图预测时间序列会被编码进整个网络架构中。RNN 最开始被用于预测句子中的下一个单词（分类任务），即时间序列上的预测。但这种网络架构也可以被应用在回归问题中。可以首先想到的问题就是股价走势与温度预测。与之前介绍的神经网络（定义 v 表示之前层空间方向的索引）相反，&/p&&img src=&/v2-fba1c8f91_b.jpg& data-rawwidth=&640& data-rawheight=&104& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-fba1c8f91_r.jpg&&&p&现在，隐藏层同时被「空间」和「时间」索引（T 是这个新方向的网络维度）。而且，RNN 的哲学也与其他方法不同：现在 a 通常以 c 的单元状态、符号表示，一些琐碎的基本 RNN 架构在 LSTM 网络中会更加重要。&/p&&img src=&/v2-e214f7a0c7835afea74b836c7e4db338_b.jpg& data-rawwidth=&640& data-rawheight=&91& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-e214f7a0c7835afea74b836c7e4db338_r.jpg&&&p&6.2.2 RNN-LSTM 中的反向传递&/p&&p&RNN-LSTM 中的反向传递必须遵守一定的时间规律，如下图所示&/p&&img src=&/v2-2ff5d6a5dde6_b.jpg& data-rawwidth=&640& data-rawheight=&315& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-2ff5d6a5dde6_r.jpg&&&p&&br&&/p&&p&图 6.2 架构与反向传播。在这里我们不能在没有计算流入的情况下计算层梯度。&/p&&p&在这种思想下，我们来看看 RNN 和它那重要的变体：长短期记忆网络（LSTM）-RNN&/p&&p&6.4 RNN 特征&/p&&p&RNN 是最基本的架构，由于它的内建结构是考虑到需要预测数据的时间结构。放大图 6.1 的隐藏层，这就是我们看到的最简单的循环神经网络结构。&/p&&img src=&/v2-04fff856ff_b.jpg& data-rawwidth=&628& data-rawheight=&394& class=&origin_image zh-lightbox-thumb& width=&628& data-original=&/v2-04fff856ff_r.jpg&&&p&&br&&/p&&p&图 6.3 RNN 隐藏层细节&/p&&p&而下图显示了图 6.3 代表的隐藏层的输出如何进入后续的隐藏单元。&/p&&img src=&/v2-4bc2ed0fd1331fbcbfbc63be8bd1c12d_b.jpg& data-rawwidth=&608& data-rawheight=&408& class=&origin_image zh-lightbox-thumb& width=&608& data-original=&/v2-4bc2ed0fd1331fbcbfbc63be8bd1c12d_r.jpg&&&p&图 6.4 RNN 隐藏层互相影响的方式&/p&&p&6.5 LSTM 特征&/p&&p&6.5.1 LSTM 架构&/p&&p&在长短期记忆网络 [7], 中，给定单元的状态并不由其左侧或底部近邻直接决定，而是由相应的隐藏单元决定，而该单元输出是单元状态的探测。首先，这个表达式看来令人困惑，但与第四章附录中我们接触到的 ResNet 方法类似：与尝试让输入内容与复杂的函数适应相反，我们试图让这些输入的变量产生微小的变化，从而允许梯度在网络中以更平滑的方式流动。在 LSTM 网络中，我们需要引入几个门：输入门判定是否让新的信息进入单元；输出门判定是否将输出值设置为 0，或反映目前的单元状态；最后，遗忘门决定是否遗忘过去的单元状态。所有这些都在图 6.5 中展示，其中 LSTM 与 6.4.1 中 RNN 结构相对应。&/p&&p&&br&&/p&&p&&br&&/p&&img src=&/v2-ff_b.jpg& data-rawwidth=&640& data-rawheight=&407& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-ff_r.jpg&&&p&图 6.5 LSTM 隐藏单元细节&/p&&p&在 LSTM 中，不同的隐藏单元以下面的方式交互。&/p&&img src=&/v2-86ee3bb089c8345fd83ffee0_b.jpg& data-rawwidth=&639& data-rawheight=&410& class=&origin_image zh-lightbox-thumb& width=&639& data-original=&/v2-86ee3bb089c8345fd83ffee0_r.jpg&&&p&图 6.6 LSTM 隐藏单元的交互方式&/p&&p&第七章结论&/p&&p&希望本文能让读者更好地了解神经网络的设计原理，以及它的工作机制。以上，我们已经讨论了三种最为常见的神经网络架构，以及它们训练公式的详细数学推导。深度学习是一个快速发展的领域，或许本文所述内容将在不久的将来成为过时信息，但其阐述的方法仍然可以为读者构建新架构提供启发。那时，我们已经获得足够的知识，可以构建自己的 FNN、CNN 与 RNN-LSTM 模型了。&/p&&p&&/p&&p&&/p&&p&&/p&
选自arXiv机器之心编译本论文技术性地介绍了三种最常见的神经网络：前馈神经网络、卷积神经网络和循环神经网络。且该文详细介绍了每一种网络的基本构建块，其包括了基本架构、传播方式、连接方式、激活函数、反向传播的应用和各种优化算法的原理。本文不仅…
&img src=&/v2-315dfdbcf06ea28c5a946648_b.jpg& data-rawwidth=&900& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&900& data-original=&/v2-315dfdbcf06ea28c5a946648_r.jpg&&&blockquote&雷刚发自凹非寺&br&量子位报道 | 公众号 QbitAI&/blockquote&&p&&br&&/p&&img src=&/v2-399dabdfd97e5_b.jpg& data-rawwidth=&640& data-rawheight=&356& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-399dabdfd97e5_r.jpg&&&p&&br&&/p&&p&今天是开学第一天！心里只有学习的量子位，发现Hacker News上又有高分话题，而且还跟学习有关！&/p&&p&这次讨论的主题是：&/p&&p&&b&想搞机器学习/AI需要怎样的数学基础，有什么推荐的入门资料/课程？&/b&&/p&&p&凡事总须研究，才会明白。看到这个话题，心里只有学习的量子位（×2）仔细看了半夜，这些讨论写着许多字、说了许多话，不过满篇可以分类为三个部分：&/p&&ul&&li&中肯建议&/li&&li&教材书籍&/li&&li&视频课程&/li&&/ul&&p&独学习不如众学习。量子位就把学后感整理如下，一起遨游知识的海洋吧~&/p&&p&&br&&/p&&img src=&/v2-ddf01abf2289_b.jpg& data-rawwidth=&640& data-rawheight=&373& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-ddf01abf2289_r.jpg&&&p&&br&&/p&&h2&中肯建议&/h2&&p&这部分内容的主要贡献者包括：&b&mindcrime&/b&、&b&tlb&/b&、&b&jules&/b&、&b&rocqua&/b&、&b&srean&/b&、&b&leecarraher&/b&、&b&irchans&/b&、&b&KirinDave&/b&、&b&wadams19&/b&、&b&pramalin&/b&等&/p&&p&首先&/p&&p&多变量微积分、线性代数、概率论、信息论，这几门必须基础扎实。精通图论也挺有用的。&/p&&p&大部分机器学习是对数据的模型拟合。为了拟合模型，需要把一些误差当成真实参数的函数，并对其进行最小化。最小化的算法基于梯度下降，也就是依赖于导数，这就是一种微积分运算。&/p&&p&如果你在做贝叶斯推理，你也需要用到微积分，因为贝叶斯定律将后验分布作为一个积分。&/p&&p&搞机器学习你只需要微积分1和2，微积分3里的旋度和散度、斯托克斯定理之类的，学物理用得上，机器学习不用这些。另外，你可能还需要一些微积分4中的基本函数分析。&/p&&p&（量子位注：此处微积分1234指的美国大学课程体系）&/p&&p&&br&&/p&&img src=&/v2-bb5db4ff6c812bfd73daf1_b.jpg& data-rawwidth=&640& data-rawheight=&358& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-bb5db4ff6c812bfd73daf1_r.jpg&&&p&&br&&/p&&p&微积分的本质之一，是反映了事物的变化，对于变化的平顺性提供了一个很好的描述。一个处于最佳状态的系统，在某个确定的点上不再增减变化。&/p&&p&机器学习中的许多问题都是优化问题：在给定一些约束的条件下，怎样选择参数才能让错误最小化？通常这非常困难（NP-hard），但如果你把问题设计为“平滑”，那么就能通过微积分来获得很好的代数解。&/p&&p&多变量微积分也是需要的，在尝试最小化“错误”时，通常会通过每次更改许多、许多参数来实现。这意味着你需要知道如何在高位空间进行平滑变换。&/p&&p&而微积分的中的积分，用来“测量”物体大小。大部分概率是用来描述非常笼统的比例。“这块有多大”的问题类似于“这件事发生的可能性有多大”。解决问题的办法，就是用数量庞大的小块集合在一起，形成一个复杂的整体。&/p&&p&所以从根本上讲，机器学习取决于如何测量一件事（积分）并且知道这件事如何变化（导数）。从某种程度上说，这两件事就是你在微积分中学到的。&/p&&p&&br&&/p&&img src=&/v2-f971f819150a_b.jpg& data-rawwidth=&640& data-rawheight=&271& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-f971f819150a_r.jpg&&&p&&br&&/p&&p&我数学背景还不错，但想要搞明白K-L散度时，还得重新研究一下。在机器学习领域，几乎我遇到的信息论问题都是最小化K-L散度，这些看维基百科都能搞懂。你还得能理解具有概率输出的模型，比方生成模型和强化学习等。&/p&&p&如果你要阅读学术期刊，至少下面这些知识点应该懂一点：&/p&&ul&&li&统计学核心。你得熟悉统计学家如何处理数据，这常常用到&/li&&li&微积分。你不需要成为解题达人，但得明白多个变量进行微分和积分的过程&/li&&li&线性代数。一切的基础，比统计还重要&/li&&li&数值计算的方法。我不断的查看资料，以搞懂大家为什么那样做&/li&&li&计算理论以及相关研究。熟悉这些能让你发现错误，找到改进的方向&/li&&li&我的下一个挑战是非参数统计。许多研究者跟我说这一领域会得到很多收获，许多方法能极大的改进机器学习&/li&&/ul&&p&还有人觉得，机器学习中最需要数学的地方，莫过于理解反向传播时。反向传播几乎都是偏导数/链式法则什么的。还有很多机器学习涉及一些微积分的凸优化。&/p&&p&但是&/p&&p&我们得分清“&b&应用&/b&”和“&b&研究&/b&”之间的区别。并不是每个人都在做最前沿的研究。有人下载一个DL4J，看几个教程，就能搭建一个基本的网络来解决问题，这个过程中也创造了价值。&/p&&p&机器学习虽然还没来到完全不需要关心底层细节的时间节点，但我们确实已经可以合法获取很多现成的工具，而不需要动手推导反向传播的方程式。&/p&&p&讲真，大多数情况下在工作中应用已知的方法，并不要求搞懂背后的数学，只需要了解基本的统计数据和概率论，能解释结果就好了。所以，如果你只是简单的使用别人做好的工具来解决问题，真的不需要什么数学背景。&/p&&p&一个本科生就能学会漂亮的解决问题，而不需要深入研究底层的数学细节，就权当做是工程问题的最佳实践。大多数实际工作中，并不用演算低级别的架构或公式，通常都是从已经选好的框架中，把想用的东西跳出来而已。&/p&&p&另一方面，如果你面临的问题不能用现成的方法搞定，这时候数学背景就派上用场了。如果你想在框架里应用一个全新或者小众的架构，就得搞明白之后才能写出来。&/p&&p&在应用和研究机器学习技术之间，有很大的不同。总的来说，单纯在应用这一端，并没有太多严格的数学背景要求。&/p&&p&&br&&/p&&img src=&/v2-dfdb40ed86faf_b.jpg& data-rawwidth=&600& data-rawheight=&424& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/v2-dfdb40ed86faf_r.jpg&&&p&&br&&/p&&p&需要多少数学，取决于你要在机器学习/AI领域扎多深。&/p&&p&如果只是应付工作，那你走运了，现成就能用的东西原来越多了。例如DataBot、H2O、Scikit-learn、Keras（加TensorFlow）……可能唯一必备的数学技能就是统计学。无论你选择了哪种解决方案，采用了何种自动调整和选择的算法，都得需要一些统计数据才能说明你的模型有效果。&/p&&p&想进一步提升自己，还可以花更多时间学习特征提取、数据工程，好好研究一下上面提到的几个工具包，特别是其中的模型。&/p&&p&如果你想研发新的技术和算法，天空才是你的极限，不过还是得统计数据。&/p&&p&那些已经大量使用的机器学习和AI框架，其实只是顶着一个数学的帽子，你完全可以把它们当成可靠的黑盒系统来用，没必要理解模型的生成过程和设置。很多工具可以告诉你哪些算法对你的数据最有意义，甚至能帮你找出最有效的那种。&/p&&p&虽然这说起来令人沮丧，但真的已经不是非得有博士学位才能干这行了。&/p&&p&不过，即便你能干的事情跟博士科学家差不多，也不意味着有人会雇你。雇主还是会看重数学、计算机科学或相关领域的博士学位。但这些可能更多出于其他方面因素的考量，而不是搞机器学习/AI的必要条件。&/p&&p&了解数学能让你更好的理解工作，减少愚蠢犯错的可能。&/p&&p&&br&&/p&&img src=&/v2-76f59a92a8aac95f65727e_b.jpg& data-rawwidth=&640& data-rawheight=&322& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-76f59a92a8aac95f65727e_r.jpg&&&p&&br&&/p&&p&上面讲到的工具，建议试试完全自动化的黑盒机器学习管道，比方说TPOT。尽早上手，以及可以推荐给你的产品经理朋友。&/p&&p&TPOT即Tree-based Pipeline Optimization Tool，这是一个基于遗传算法自动选择、优化机器学习模型和参数的工具。通常模型有非常大量的参数需要调整和优化，这类工具可以节省找到最优参数组合的时间。&/p&&p&不过，许多机器学习从业人员对这类自动化机器学习管道非常警惕。如果没有理解这些工具的基本统计/数学假设，可能会遇到很多坑；而这种一刀切的解决方案，也可能会给出误导性的结果。另外使用这类工具，也让解释原因和结果的工作变得更加困难，一个“黑盒子”很难得到价值认同。&/p&&ul&&li&TPOT的GitHub地址：&/li&&/ul&&p&&a href=&/?target=https%3A///rhiever/tpot& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/rhiever/tpot&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&到底应该怎么开始学习？&/p&&ul&&li&建议一：有两种方法来学习机器学习/AI：1）阅读所有资料，然后开始解决问题 2）先开始解决问题，然后根据需要学习相关的数学知识。第二种方法更好。&/li&&li&建议二：首先在Coursera上看吴恩达机器学习和深度学习的课程。选择你感兴趣的领域和问题。接着阅读机器学习/AI在这一领域如何应用的论文。然后动手重现你已经搞明白并且感兴趣的论文。&/li&&li&建议三：这个&b&学习计划&/b&我觉得非常有用，很好的列出了所需课程和时间框架，地址在此：&/li&&/ul&&p&&a href=&/?target=https%3A///blog/2017/01/the-most-comprehensive-data-science-learning-plan-for-2017/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/blo&/span&&span class=&invisible&&g/2017/01/the-most-comprehensive-data-science-learning-plan-for-2017/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&h2&教材书籍&/h2&&p&接下来开始分享资源。先从书籍讲起。&/p&&p&这部分内容的主要贡献者包括：&b&CuriouslyC&/b&、&b&rdudekul&/b&、&b&kgwgk&/b&、&b&charlescearl&/b&、&b&ChadyWady&/b&等。&/p&&p&&br&&/p&&img src=&/v2-9ba1e6e53d15ff21d4e317_b.jpg& data-rawwidth=&640& data-rawheight=&404& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-9ba1e6e53d15ff21d4e317_r.jpg&&&p&&br&&/p&&p&我认为最好从&b&David MacKay&/b&的《Information Theory, Inference and Learning Algorithms（信息论、推理与学习算法）》入手，内容可能有点老旧了，但仍然是这个领域最平易近人的书籍之一。&/p&&ul&&li&在线版本：&/li&&/ul&&p&&a href=&/?target=http%3A//www.inference.org.uk/itprnn/book.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&inference.org.uk/itprnn&/span&&span class=&invisible&&/book.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&另一本推荐的旧书是&b&E. T. Jaynes&/b&的《Probability Theory: the Logic of Science（概率论：科学的逻辑）》。&/p&&ul&&li&在线版本&/li&&/ul&&p&&a href=&/?target=http%3A//www.med.mcgill.ca/epidemiology/hanley/bios601/GaussianModel/JaynesProbabilityTheory.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&med.mcgill.ca/epidemiol&/span&&span class=&invisible&&ogy/hanley/bios601/GaussianModel/JaynesProbabilityTheory.pdf&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&以及&b&Tibshirani&/b&的《Elements of Statistical Learning（统计学习元素）》。&/p&&ul&&li&在线版本：&/li&&/ul&&p&&a href=&/?target=https%3A//web.stanford.edu/%7Ehastie/ElemStatLearn/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&web.stanford.edu/~hasti&/span&&span class=&invisible&&e/ElemStatLearn/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&b&Andrew Gelman&/b&的《Bayesian Data Analysis（贝叶斯数据分析）》也很好。&/p&&ul&&li&在线版本：&/li&&/ul&&p&&a href=&/?target=http%3A//hbanaszak.mjr.uw.edu.pl/TempTxt/%28Chapman%0Hall_CRC%2520Texts%2520in%2520Statistical%2520Science%29& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&hbanaszak.mjr.uw.edu.pl&/span&&span class=&invisible&&/TempTxt/(Chapman%20&%20Hall_CRC%20Texts%20in%20Statistical%20Science)&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&%20Andrew%20Gelman,%20John%20B.%20Carlin,%20Hal%20S.%20Stern,%20David%20B.%20Dunson,%20Aki%20Vehtari,%20Donald%20B.%20Rubin-Bayesian%20Data%20Analysis-Chapman%20and%20Hall_CRC%20(2014).pdf&/p&&p&&br&&/p&&img src=&/v2-0bee8e95b44a060a0ea9de_b.jpg& data-rawwidth=&640& data-rawheight=&397& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-0bee8e95b44a060a0ea9de_r.jpg&&&p&&br&&/p&&p&想了解这个领域最新的额进展，建议阅读&b&Ian Goodfellow&/b&和&b&Yoshua Bengio&/b&的《Deep Learning》。&/p&&ul&&li&在线版本：&/li&&/ul&&p&&a href=&/?target=http%3A//www.deeplearningbook.org/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&deeplearningbook.org/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&推荐一本我本科时候用的统计学教材：《Probability & Statistics for Engineers & Scientists》。&/p&&ul&&li&在线版本：&/li&&/ul&&p&&a href=&/?target=https%3A///Probability-Statistics-Engineers-Scientists-MyStatLab/dp/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/Probability-&/span&&span class=&invisible&&Statistics-Engineers-Scientists-MyStatLab/dp/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&再推荐一些&b&网上免费的数学参考书&/b&：&/p&&ul&&li&在线数学教材汇总&/li&&/ul&&p&&a href=&/?target=http%3A//people.math.gatech.edu/%7Ecain/textbooks/onlinebooks.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&people.math.gatech.edu/&/span&&span class=&invisible&&~cain/textbooks/onlinebooks.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&免费数学教材&/li&&/ul&&p&&a href=&/?target=http%3A///free-math-textbooks& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/free-ma&/span&&span class=&invisible&&th-textbooks&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&开放教材图书馆&/li&&/ul&&p&&a href=&/?target=https%3A//open.umn.edu/opentextbooks/SearchResults.aspx%3FsubjectAreaId%3D7& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&open.umn.edu/opentextbo&/span&&span class=&invisible&&oks/SearchResults.aspx?subjectAreaId=7&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&MIT在线教材&/li&&/ul&&p&&a href=&/?target=https%3A//ocw.mit.edu/courses/online-textbooks/%23mathematics& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&ocw.mit.edu/courses/onl&/span&&span class=&invisible&&ine-textbooks/#mathematics&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&美国数学研究所认证教材&/li&&/ul&&p&&a href=&/?target=https%3A//aimath.org/textbooks/approved-textbooks/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&aimath.org/textbooks/ap&/span&&span class=&invisible&&proved-textbooks/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&AI是一个非常广阔的领域，每个细分领域都有不同的数学背景要求。掌握所有的数学知识是不可能的，所以你得想清楚对什么感兴趣。&/p&&p&&br&&/p&&img src=&/v2-d51a335b7dbcc934a405509_b.jpg& data-rawwidth=&640& data-rawheight=&427& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-d51a335b7dbcc934a405509_r.jpg&&&p&&br&&/p&&p&同时推荐一本&b&Russell和Norvig&/b&的好书，覆盖了人工智能中很多不同的主题。无论你本科学到了什么，这本书都可以提供了一深入了解AI的良好起点。&/p&&p&这本书是《Artificial Intelligence: A Modern Approach》，中文版名称《人工智能：一种现代方法》。&/p&&ul&&li&英文版地址在此：&/li&&/ul&&p&&a href=&/?target=http%3A//aima.cs.berkeley.edu/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&aima.cs.berkeley.edu/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&另外附送一份&b&Michael I. Jordan&/b&之前开出的书单。&/p&&ul&&li&地址在此：&/li&&/ul&&p&&a href=&/?target=https%3A///item%3Fid%3D1055389& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/it&/span&&span class=&invisible&&em?id=1055389&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&b&上述在线内容都是合法的。合法的。合法的。&/b&&/p&&p&&br&&/p&&img src=&/v2-92a8f812aa1ef6bcdc4fec0_b.jpg& data-rawwidth=&640& data-rawheight=&321& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-92a8f812aa1ef6bcdc4fec0_r.jpg&&&p&&br&&/p&&h2&视频课程&/h2&&p&再来就是视频课程汇总。主要贡献者包括：&b&72mena&/b&、&b&leecarraher&/b&、&b&mindcrime&/b&、&b&rdrey&/b&等。&/p&&p&YouTube以及&a href=&/?target=http%3A//Videolectures.net& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&Videolectures.net&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&上有很多高质量的数学&b&视频&/b&教学内容。&/p&&ul&&li&之前提到的&b&David MacKay&/b&，合辑在此：&/li&&/ul&&p&&a href=&/?target=http%3A//videolectures.net/david_mackay/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&videolectures.net/david&/span&&span class=&invisible&&_mackay/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&&b&Leonard教授&/b&合辑在此：&/li&&/ul&&p&&a href=&/?target=https%3A///user/professorleonard57& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/user/profes&/span&&span class=&invisible&&sorleonard57&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&img src=&/v2-ca0faed607e657a5b6abc18c_b.jpg& data-rawwidth=&640& data-rawheight=&225& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-ca0faed607e657a5b6abc18c_r.jpg&&&p&&br&&/p&&ul&&li&&b&Gilbert Strang&/b&合辑在此：&/li&&/ul&&p&&a href=&/?target=https%3A///results%3Fsearch_query%3Dgilbert%2Bstrang& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/results?&/span&&span class=&invisible&&search_query=gilbert+strang&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&&b&3Blue1Brown&/b&合辑在此：&/li&&/ul&&p&&a href=&/?target=https%3A///channel/UCYO_jab_esuFRV4b17AJtAw& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/channel/UCY&/span&&span class=&invisible&&O_jab_esuFRV4b17AJtAw&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&还有画风清奇的&b&Siraj Raval&/b&讲人工智能中的数学：&/li&&/ul&&p&&a href=&/?target=https%3A///watch%3Fv%3DxRJCOz3AfYY%26list%3DPL2-dafEMk2A7mu0bSksCGMJEmeddU_H4D& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/watch?&/span&&span class=&invisible&&v=xRJCOz3AfYY&list=PL2-dafEMk2A7mu0bSksCGMJEmeddU_H4D&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&img src=&/v2-2a82cbe5dc1_b.jpg& data-rawwidth=&640& data-rawheight=&307& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-2a82cbe5dc1_r.jpg&&&p&&br&&/p&&p&我的建议是，先快速看一遍&b&Jeremy Howard&/b&的讲座，这里面有很多机器学习/AI的应用案例，而且只需要一点点的数学背景就能看懂。&/p&&ul&&li&地址在此：&/li&&/ul&&p&&a href=&/?target=http%3A//course.fast.ai/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&course.fast.ai/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&接下来可以去Coursera上&b&吴恩达&/b&的新课程，比原来的课程更容易接近，但仍然会有一些方程式让你不知所措，不过你肯定能实现出来。地址在此：&/p&&ul&&li&老课程《机器学习》：&/li&&/ul&&p&&a href=&/?target=https%3A//www.coursera.org/learn/machine-learning& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&coursera.org/learn/mach&/span&&span class=&invisible&&ine-learning&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&ul&&li&新课程《深度学习》：&/li&&/ul&&p&&a href=&/?target=https%3A//www.coursera.org/specializations/deep-learning& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&coursera.org/specializa&/span&&span class=&invisible&&tions/deep-learning&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&img src=&/v2-fc32d37d859da2dc3d2d_b.jpg& data-rawwidth=&638& data-rawheight=&359& class=&origin_image zh-lightbox-thumb& width=&638& data-original=&/v2-fc32d37d859da2dc3d2d_r.jpg&&&p&&br&&/p&&p&再推荐一个统计学课程，德州大学奥斯汀分校统计和数据科学系&b&Michael J. Mahometa&/b&主讲的《数据分析基础》。&/p&&ul&&li&地址在此：&/li&&/ul&&p&&a href=&/?target=https%3A//courses.edx.org/courses/course-v1%3AUTAustinX%2BUT.7.11x%2B3T2016/course/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&courses.edx.org/courses&/span&&span class=&invisible&&/course-v1:UTAustinX+UT.7.11x+3T2016/course/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&小建议，在这个课程中讲师使用了R语言，我觉得还是Python更好。&/p&&p&另外，Coursera上有一系列的统计课程还不错。不过贝叶斯统计这门课有点难，建议买一本书或者补充点其他课外资料。我推荐这本书：《Bayes’ Rule: A Tutorial Introduction to Bayesian Analysis》&/p&&ul&&li&亚马逊有售：&/li&&/ul&&p&&a href=&/?target=https%3A///Bayes-Rule-Tutorial-Introduction-Bayesian/dp/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/Bayes-Rule-T&/span&&span class=&invisible&&utorial-Introduction-Bayesian/dp/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&h2&OMT&/h2&&p&想搞机器学习/AI但数学不好的孩子，或者还有？快把这篇发给他。&/p&&p&救救孩子……&/p&&p&二零一七年九月。&/p&&p&&br&&/p&&img src=&/v2-be62aedd721abeacad6f6a_b.jpg& data-rawwidth=&500& data-rawheight=&305& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/v2-be62aedd721abeacad6f6a_r.jpg&&&p&&br&&/p&&p&传送门：肉身前往Hacker News观摩，请点击左下角“阅读原文”。&/p&&p&课外阅读&/p&&p&量子位在知乎上也发现一个质量很高的讨论。主要是王乃岩谈“如何判断一个面试者的深度学习水平？”，贾扬清等也参与了回答……&/p&&p&在量子位微信公众号（QbitAI）对话界面，回复：“&b&naiyan&/b&”这六个字母，即刻前往观摩。&/p&&p&如果你有更好的推荐，欢迎留言，让更多朋友看到~&/p&&p&— 完 —&/p&&p&欢迎大家关注我们的专栏：&a href=&/qbitai& class=&internal&&量子位 - 知乎专栏&/a&&/p&&p&诚挚招聘&/p&&p&量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。&/p&&p&&a href=&/qbitai& class=&internal&&量子位 QbitAI&/a&&/p&&p&?'?' ? 追踪AI技术和产品新动态&/p&
雷刚发自凹非寺量子位报道 | 公众号 QbitAI 今天是开学第一天！心里只有学习的量子位，发现Hacker News上又有高分话题，而且还跟学习有关！这次讨论的主题是：想搞机器学习/AI需要怎样的数学基础，有什么推荐的入门资料/课程？凡事总须研究，才会明白。…
&img src=&/v2-00e3a080ed68c8cb424c3e84a7631d86_b.jpg& data-rawwidth=&1000& data-rawheight=&625& class=&origin_image zh-lightbox-thumb& width=&1000& data-original=&/v2-00e3a080ed68c8cb424c3e84a7631d86_r.jpg&&&p&【智能观】如果你从事人工智能行业，那么以下14个人的技术博客一定不能错过，他们有的是名师李飞飞的高徒，有的是kaggle世界排名前百的高手，有的是顶尖大学的学生组织，其博客涉及方面包括神经网络、机器学习、深度学习、NLP、硬件等。&/p&&p&&b&1. Andrej Karpathy&/b&&/p&&p&&br&&/p&&img src=&/v2-ca216a65beb_b.png& data-rawwidth=&417& data-rawheight=&389& class=&content_image& width=&417&&&p&&br&&/p&&p&李飞飞高徒Andrej Karpathy，目前是特斯拉人工智能与自动驾驶视觉总监，他在斯坦福获得博士学位后，其博客就火了。该博客通过实例介绍了深度学习的相关内容，有一些作者的技术思考，甚至还有一份斯坦福读博技巧。&/p&&p&学术网站：&a href=&/?target=http%3A//cs.stanford.edu/people/karpathy/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&cs.stanford.edu/people/&/span&&span class=&invisible&&karpathy/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A//karpathy.github.io/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&karpathy.github.io/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&a href=&/?target=https%3A///karpathy& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/karpathy&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&2. i am trask&/b&&/p&&p&Trask是牛津大学博士生，《Manning Books》的作者，专注于深度学习领域。&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A//iamtrask.github.io/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&iamtrask.github.io/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&a href=&/?target=https%3A///iamtrask& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/iamtrask&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&3. Christopher Olah&/b&&/p&&img src=&/v2-6aa9589fae8e60baae8d_b.png& data-rawwidth=&634& data-rawheight=&272& class=&origin_image zh-lightbox-thumb& width=&634& data-original=&/v2-6aa9589fae8e60baae8d_r.png&&&p&&br&&/p&&p&Christopher Olah是“谷歌大脑”团队成员，这是他在建立机器学习研究的新期刊Distill之前写的博客，内容包括一般性神经网络、RNN、CNN、可视化神经网络等。&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A//colah.github.io/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&colah.github.io/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///ch402& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/ch402&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&4. Top Bots&/b&&/p&&p&Top Bots与其说是一个博客，更像一个网站。他们提供企业教育，教导高管和企业领导者如何解决问题，通过机器智能实现目标。&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///topbots& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/topbots&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&5. WildML&/b&&/p&&p&这是“谷歌大脑”团队成员Denny Britz的技术博客，内容主要涉及人工智能、深度学习、NLP领域，在这个博客里，还有许多关于强化学习的技术文章。&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///dennybritz& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/dennybritz&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&6. Distill&/b&&/p&&p&Distill是今年3月份知名博主Christopher Olah和Shan Carter发布的一份专注于机器学习研究的新期刊，不同于过去百余年间的论文，Distill利用互联网，以可视化、可交互的形式来展示机器学习研究成果。&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A//distill.pub/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&distill.pub/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///distillpub& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/distillpub&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&7. FastML&/b&&/p&&p&&br&&/p&&p&FastML旨在解决机器学习中有趣的课题，同时兼具娱乐性，使机器学习易于阅读和理解。博客的运营者ZygmuntZaj?c是一位教育经济学家，他认为一些尖端的研究人员可能没有兴趣提供免费的东西，或者对做这种接地气的事情没有兴趣。&/p&&p&&br&&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///fastml_extra& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/fastml_extr&/span&&span class=&invisible&&a&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&8. Adventures in NI&/b&&/p&&p&&br&&/p&&img src=&/v2-ea877eaa45f9eeb92cdd007c49e67e7b_b.png& data-rawwidth=&257& data-rawheight=&333& class=&content_image& width=&257&&&p&&br&&/p&&p&这是Jason Brownlee博士的博客，他戏称自己是一位丈夫、父亲和专业开发人员，从事机器学习系统防御方向，开办创业公司，以及为天气预报服务。他的博客希望帮助专业开发人员应用机器学习来解决复杂的问题。&/p&&p&&br&&/p&&p&博客：&/p&&p&&a href=&/?target=https%3A//joanna-bryson.blogspot.de/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&joanna-bryson.blogspot.de&/span&&span class=&invisible&&/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///j2bryson& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/j2bryson&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A///blog/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&&/span&&span class=&invisible&&/blog/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///TeachTheMachine& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/TeachTheMac&/span&&span class=&invisible&&hine&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&9. Sebastian Ruder&/b&&/p&&p&&br&&/p&&p&Sebastian Ruder是自然语言处理和深度学习方面的博士生，目前在都柏林的文本分析创业公司AYLIEN的研究中心工作。他对NLP的转移和多任务学习感兴趣，并致力于机器学习和人工智能的普及。他曾与微软、IBM的“深蓝”、“GSoC（谷歌编程之夏）”和SAP等公司合作过。&/p&&p&&br&&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///seb_ruder& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/seb_ruder&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&10. Unsupervised Methods&/b&&/p&&p&&br&&/p&&p&这个博客是Robbie Allen读博士前的一些思考，他正在进行人工智能领域的创业。为了尝试让自己更聪明，Robbie学习应用图像风格迁移技术到The Great Wave（葛饰北斋神奈川浮世绘《巨浪》）的原始照片上。&/p&&p&&br&&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&&/span&&span class=&invisible&&/&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///RobbieAllen& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/RobbieAllen&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&11. Explosion&/b&&/p&&img src=&/v2-5ff23e99aebf0fd6a00bda_b.png& data-rawwidth=&581& data-rawheight=&182& class=&origin_image zh-lightbox-thumb& width=&581& data-original=&/v2-5ff23e99aebf0fd6a00bda_r.png&&&p&Explosion AI是一个数字工作室，专门从事人工智能和自然语言处理。他们设计自定义算法，应用程序和数据资产，是高级NLP领先开源库spaCy的制造商，他们的博客总以实例方式讲解机器学习问题。&/p&&p&博客：&/p&&p&&a href=&/?target=https%3A//explosion.ai/blog/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&explosion.ai/blog/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///explosion_ai& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/explosion_a&/span&&span class=&invisible&&i&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&12. Tim Dettwers&/b&&/p&&p&&br&&/p&&img src=&/v2-bc11bc7cbd425d_b.png& data-rawwidth=&422& data-rawheight=&337& class=&origin_image zh-lightbox-thumb& width=&422& data-original=&/v2-bc11bc7cbd425d_r.png&&&p&&br&&/p&&p&Tim Dettwers是瑞士卢加诺大学的信息学硕士生，目前正在微软实习，他专注于自然语言理解方向，此前，还建立了自己的GPU集群，并开发了一些算法来加速GPU集群的深度学习。他参加Kaggle比赛，目前世界排名63。Tim Dettwers的博客内容不多，内容更多关于硬件方面。&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A///& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///Tim_Dettmers& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/Tim_Dettmer&/span&&span class=&invisible&&s&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&13. When trees fall...&/b&&/p&&p&Shawn Tan目前是新加坡国立大学助理教授，他的博客主要研究神经网络和自然语言处理中的应用。&/p&&p&&br&&/p&&img src=&/v2-7dbb3ac26a84ab99dbfd2e_b.png& data-rawwidth=&355& data-rawheight=&288& class=&content_image& width=&355&&&p&&br&&/p&&p&博客：&/p&&p&&a href=&/?target=http%3A//blog.wtf.sg/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&blog.wtf.sg/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///tanshawn& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/tanshawn&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&&br&&/p&&p&&b&14. ML@B&/b&&/p&&p&ML @ B是加州大学-伯克利分校的一个学生组织运营的博客，他们的目标是为有兴趣探索机器学习的本科生和研究生提供教育和计算资源，为他们提供在学术研究和行业环境中获得解决现实问题的实践机会。&/p&&p&博客：&/p&&p&&a href=&/?target=https%3A//ml.berkeley.edu/blog/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&ml.berkeley.edu/blog/&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&Twitter：&/p&&p&&a href=&/?target=https%3A///berkeleyml& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&/berkeleyml&/span&&span class=&invisible&&&/span&&i class=&icon-external&&&/i&&/a&&/p&&p&&br&&/p&&p&想知道AI加教育领域有哪些最新研究成果？请在智能观（zhinengguanym）对话界面回复“&b&论文&/b&”；&/p&&p&想要AI领域更多的干货？请在对话界面回复“&b&干货&/b&”；&/p&&p&想了解更多专家的“智能观”，请在对话界面回复“&b&观点&/b&”，去获取你想要的内容吧。&/p&
【智能观】如果你从事人工智能行业，那么以下14个人的技术博客一定不能错过，他们有的是名师李飞飞的高徒，有的是kaggle世界排名前百的高手，有的是顶尖大学的学生组织，其博客涉及方面包括神经网络、机器学习、深度学习、NLP、硬件等。1. Andrej Karpathy …
&img src=&/v2-4afe9e71eb_b.jpg& data-rawwidth=&794& data-rawheight=&589& class=&origin_image zh-lightbox-thumb& width=&794& data-original=&/v2-4afe9e71eb_r.jpg&&&blockquote&文章选自StatsBot。作者：Anton Karazeev。机器之心编译，参与：乾树、黄小天。&a href=&/?target=https%3A//blog.statsbot.co/generative-adversarial-networks-gans-engine-and-applications-f& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&原文链接在此。&i class=&icon-external&&&/i&&/a&&/blockquote&&p&生成对抗网络（GAN）是一类在无监督学习中使用的神经网络，其有助于解决按文本生成图像、提高图片分辨率、药物匹配、检索特定模式的图片等任务。Statsbot 小组邀请数据科学家 Anton Karazeev 通过日常生活实例深入浅出地介绍 GAN 原理及其应用。&/p&&img src=&/v2-fdcd9c69cdccf873a8b43e0_b.png& data-rawwidth=&640& data-rawheight=&199& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-fdcd9c69cdccf873a8b43e0_r.png&&&p&生成对抗网络由 Ian Goodfellow 于 2014 年提出。GAN 不是神经网络应用在无监督学习中的唯一途径，还有玻尔兹曼机（Geoffrey Hinton 和 Terry Sejnowski，1985）和自动解码器（Dana H. Ballard，1987）。三者皆致力于通过学习恒等函数 f（x）= x 从数据中提取特征，且都依赖马尔可夫链来训练或生成样本。&/p&&p&GAN 设计之初衷就是避免使用马尔可夫链，因为后者的计算成本很高。相对于玻尔兹曼机的另一个优点是 GAN 的限制要少得多（只有几个概率分布适用于马尔可夫链抽样）。&/p&&p&在本文中，我们将讲述 GAN 的基本原理及最流行的现实应用。&/p&&p&&br&&/p&&h2&GAN 原理&/h2&&p&让我们用一个比喻解释 GAN 的原理吧。&/p&&img src=&/v2-c960a6e55b4da66c1e8e_b.png& data-rawwidth=&373& data-rawheight=&235& class=&content_image& width=&373&&&p&&br&&/p&&p&假设你想买块好表。但是从未买过表的你很可能难辨真假；买表的经验可以免被奸商欺骗。当你开始将大多数手表标记为假表（当然是被骗之后），卖家将开始「生产」更逼真的山寨表。这个例子形象地解释了 GAN 的基本原理：判别器网络（手表买家）和生成器网络（生产假表的卖家）。&/p&&p&两个网络相互博弈。GAN 允许生成逼真的物体（例如图像）。生成器出于压力被迫生成看似真实的样本，判别器学习分辨生成样本和真实样本。&/p&&img src=&/v2-baff2fe0c42e9a5f7c0e_b.png& data-rawwidth=&640& data-rawheight=&430& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-baff2fe0c42e9a5f7c0e_r.png&&&p&判别算法和生成算法有何不同？简单地说：判别算法学习类之间的边界（如判别器做的那样），而生成算法学习类的分布（如生成器做的那样）。&/p&&p&&br&&/p&&h2&如果你准备深入了解 GAN&/h2&&p&想要学习生成器的分布，应该定义数据 x 的参数 p_g，以及输入噪声变量 p_z（z）的分布。然后 G（z，θ_g）将 z 从潜在空间 Z 映射到数据空间，D（x，θ_d）输出单个标量——一个 x 来自真实数据而不是 p_g 的概率。&/p&&p&训练判别器以最大化正确标注实际数据和生成样本的概率。训练生成器用于最小化 log（1-D（G（z）））。换句话说，尽量减少判别器得出正确答案的概率。&/p&&p&可以将这样的训练任务看作具有值函数 V（G，D）的极大极小博弈：&/p&&img src=&/v2-b45d1a7dadaed8ea3955db27_b.png& data-rawwidth=&640& data-rawheight=&56& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-b45d1a7dadaed8ea3955db27_r.png&&&p&换句话说，生成器努力生成判别器难以辨认的图像，判别器也愈加聪明，以免被生成器欺骗。&/p&&p&「对抗训练是继切片面包之后最酷的事情。」- Yann LeCun&/p&&p&当判别器不能区分 p_g 和 p_data，即 D（x，θ_d）= 1/2 时，训练过程停止。达成生成器与判别器之间判定误差的平衡。&/p&&p&&br&&/p&&h2&历史档案图像检索&/h2&&p&一个有趣的 GAN 应用实例是在「Prize Papers」中检索相似标记，Prize Papers 是海洋史上最具价值的档案之一。对抗网络使得处理这些具有历史意义的文件更加容易，这些文件还包括海上扣留船只是否合法的信息。&/p&&img src=&/v2-59fd06f8bbde1e619c034f79_b.png& data-rawwidth=&640& data-rawheight=&267& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-59fd06f8bbde1e619c034f79_r.png&&&p&每个查询到的记录都包含商家标记的样例——商家属性的唯一标识，类似于象}

我爱游戏网