Python与深度学习

点击联系发帖人 时间：2017-09-11 13:03

机器学习和深度学习的最佳框架大比拼
在过去的一年里，咱们讨论了六个开源机器学习和/或深度学习框架：Caffe，Microsoft Cognitive Toolkit（又名CNTK 2），MXNet，Scikit-learn，Spark MLlib和TensorFlow。如果把网撒得大些，可能还会覆盖其他几个流行的框架，包括Theano（一个10年之久的Python深度学习和机器学习框架），Keras（一个Theano和TensorFlow深度学习的前端），DeepLearning4j（Java和Scala在Hadoop和Spark之上的深度学习软件）。如果你有兴趣使用机器学习和神经网络，你从来没有像现在这样多的选择。机器学习框架和深度学习框架之间有区别。本质上，机器学习框架涵盖用于分类，回归，聚类，异常检测和数据准备的各种学习方法，并且其可以或可以不包括神经网络方法。深度学习或深度神经网络（DNN）框架涵盖具有许多隐藏层的各种神经网络拓扑。这些层包括模式识别的多步骤过程。网络中的层越多，可以提取用于聚类和分类的特征越复杂。Caffe，CNTK，DeepLearning4j，Keras，MXNet和TensorFlow是深度学习框架。 Scikit-learning和Spark MLlib是机器学习框架。 Theano跨越了这两个类别。一般来说，深层神经网络计算在GPU（特别是Nvidia CUDA通用GPU，大多数框架）上运行的速度要比CPU快一个数量级。一般来说，更简单的机器学习方法不需要GPU的加速。虽然你可以在一个或多个CPU上训练DNN，训练往往是缓慢的，慢慢我不是说秒或分钟。需要训练的神经元和层数越多，可用于训练的数据越多，需要的时间就越长。当Google Brain小组在2016年针对新版Google翻译训练语言翻译模型时，他们在多个GPU上同时运行了一周的训练时间。没有GPU，每个模型训练实验将需要几个月。这些框架中每一个框架具有至少一个显著特征。 Caffe的强项是用于图像识别的卷积DNN。 Cognitive Toolkit有一个单独的评估库，用于部署在ASP.Net网站上工作的预测模型。 MXNet具有良好的可扩展性，可用于多GPU和多机器配置的训练。 Scikit-learn具有广泛的强大的机器学习方法，易学已用。 Spark MLlib与Hadoop集成，具有良好的机器学习可伸缩性。 TensorFlow为其网络图TensorBoard提供了一个独特的诊断工具。另一方面，所有深度学习框架在GPU上的训练速度几乎相同。这是因为训练内循环在Nvidia CuDNN包中花费大部分时间。然而，每个框架采用一种不同的方法来描述神经网络，具有两个主要的阵营：使用图形描述文件的阵营，以及通过执行代码来创建它们的描述的阵营。考虑到这一点，让我们来看看每一个框架的特性。Caffe（咖啡）&Caffe深度学习项目，最初是一个强大的图像分类框架，似乎停滞不前，基于它的持续的bug，以及它已被卡住1.0版RC3一年多的事实，并且创始人已离开项目。它仍然有良好的卷积网络图像识别和良好的支持Nvidia CUDA GPU，以及一个简单的网络描述格式。另一方面，它的模型通常需要大量的GPU内存（超过1GB）运行，它的文档是多斑点和问题，支持很难获得，安装是iffy，特别是对于它的Python笔记本支持。Caffe有命令行，Python和Matlab接口，它依靠ProtoText文件来定义它的模型和求解器。 Caffe在其自己的模型模式中逐层定义网络。网络定义从输入数据到丢失的整个模型。当数据和派生数据在前向和后向遍历网络时，Caffe存储，通信和操作信息为blob（二进制大对象），内部是以C连续方式存储的N维数组（表示行该数组被存储在连续的存储器块中，如在C语言中）。 Blob之于Caffe如Tensor之于TensorFlow。图层对blob执行操作，并构成Caffe模型的组件。层卷积滤波器，执行池，取内部乘积，应用非线性（诸如整流线性和S形以及其他元素方面的变换），归一化，加载数据和计算诸如softmax和铰链的损失。Caffe已经证明其在图像分类中的有效性，但它的时刻似乎已经过去了。除非现有的Caffe模型符合您的需要，或者可以根据您的目的进行微调，我建议使用TensorFlow，MXNet或CNTK。在NBViewer中显示的预先计算的CaffeJupyter笔记本。这本笔记本解释了使用一只可爱的小猫在Caffe网络上做“手术”。Microsoft Cognitive Toolkit（Microsoft认知工具包）Microsoft Cognitive Toolkit是一个快速，易用的深度学习软件包，但与TensorFlow相比，其范围有限。它有各种各样的模型和算法，极好的支持Python和Jupyter笔记本，一个有趣的声明性神经网络配置语言BrainScript，以及在Windows和Ubuntu Linux环境下自动部署。在缺点方面，当我审查Beta 1的文档还没有完全更新到CNTK 2，并且包没有对MacOS支持。虽然自Beta 1以来，CNTK 2有许多改进，包括新的内存压缩模式，以减少GPU和新的Nuget安装包的内存使用，但对MacOS支持仍然缺失。为Beta 1添加的PythonAPI有助于将认知工具包带入主流的、用Python码的、深度学习研究人员当中。 API包含模型定义和计算、学习算法、数据读取和分布式训练的抽象。作为PythonAPI的补充，CNTK 2具有新的Python示例和教程，以及对 Google Protocol Buffer序列化的支持。教程以Jupyter笔记本实现。CNTK 2组件可以处理来自Python，C ++或BrainScript的多维密集或稀疏数据。认知工具包包括各种各样的神经网络类型：FFN（前馈），CNN（卷积），RNN/ LSTM（递归/长期短期记忆），批次标准化和序列注意序列。它支持强化学习，生成对抗网络，监督和非监督学习，自动超参数调整，以及从Python添加新的，用户定义的核心组件在GPU上运行的能力。它能够在多个GPU和机器上做到精确的并行性，而且（微软声称）它甚至可以适应最大的模型到GPU内存。CNTK 2 API支持从Python，C ++和BrainScript定义网络，学习者，读者，培训和评估。他们还支持使用C＃进行评估。 Python API与NumPy互操作，并包括一个高级层级库，可以精确定义包括复现在内的高级神经网络。该工具包支持以符号形式表示循环模型作为神经网络中的循环，而不需要静态展开循环步骤。您可以在Azure网络和GPU上训练CNTK 2模型。配备GPU的N系列Azure虚拟机系列，在我审核Beta 1时受到限制，现在通常可以从Azure控制台获得并完全管理。几个CNTK 2 / Microsoft Cognitive Toolkit教程以Jupyter笔记本提供。该图显示了Logistic回归训练的绘制的可视化。MXNetMXNet是一个可移植的、可伸缩的深度学习库，是亚马逊的DNN框架的选择，结合了神经网络几何的象征性声明与张量操作的命令性编程。 MXNet可跨多个主机扩展到多个GPU，接近线性扩展效率为85％，具有出色的开发速度、可编程性和可移植性。它支持Python，R，Scala，Julia和C ++，支持程度各不相同，它允许你混合符号和命令式编程风格。在我第一次评论MXNet时，文档感觉还没有完成，除Python之外，我发现很少有其它语言的例子。自从我评论以后，这两种情况都有所改善。MXNet平台是建立在一个动态依赖调度器上的，它可以自动并行化符号和命令式操作，但是你必须告诉MXNet要使用哪些GPU和CPU核心。在调度器顶部的图优化层使符号执行快速和内存高效。MXNet目前支持用Python，R，Scala，Julia和C ++构建和训练模型；训练的MXNet模型也可以用于Matlab和JavaScript中的预测。无论您选择哪种语言来构建模型，MXNet都会调用优化的C ++后端引擎。MXNet作者认为他们的API是Torch、Theano、Chainer和Caffe提供的一个超集，尽管对GPU集群有更多的可移植性和支持。在许多方面MXNet类似于TensorFlow，但增加了嵌入命令张量操作的能力。除了实际强制的MNIST数字分类之外，MXNet教程的计算机视觉包含使用卷积神经网络（CNN）的图像分类和分割，使用更快的R-CNN的对象检测，神经艺术和使用深度CNN的大规模图像分类和ImageNet数据集。还有自然语言处理、语音识别、对抗网络以及监督和非监督机器学习的其他教程。亚马逊测试了在P2.16xlarge实例上的MXNet中实现的Inception v3算法，发现其伸缩效率为85％。Scikit-learnScikit-learn Python框架具有广泛的可靠的机器学习算法，但没有深度学习算法。如果你是一个Python粉丝，Scikit-learn可能是一般机器学习库中最佳选择。Scikit-learn是一个强大的，成熟的机器学习Python库，包含各种各样成熟的算法和集成图。它相对容易安装、学习和使用，带有很好的例子和教程。在另一方面，Scikit-learn不包括深度学习或强化学习，缺少图模型和序列预测，并且除Python之外，不能真正使用其它语言。它不支持PyPy，Python即时编译器或GPU。也就是说，除了它的少量进入神经网络，它不会真的有速度问题。它使用Cython（Python到C编译器）来处理需要快速的函数，例如内循环。Scikit-learn对分类、回归、聚类、降维、模型选择和预处理算法具有很好的选择。它有所有这些的良好的文档和示例，但没有任何种类的指导工作流以完成这些任务。Scikit-learn赢得了易于开发的最高分，主要是因为算法都像广告和文档一样工作，API是一致的，设计良好，数据结构之间几乎没有“阻抗不匹配”。函数库其中的功能已彻底充实，错误彻底消除，用来开发十分愉快。本示例使用Scikit-learn的小手写数字数据集来演示使用Label Spreading模型的半监督学习。在1,797总样本中只有30个被标记。另一方面，函数库没有涵盖深度学习或强化学习，这隐藏了当前困难但重要的问题，例如准确的图像分类和可靠的实时语言解析和翻译。显然，如果你对深度学习感兴趣，你应该另觅他处。然而，存在许多问题，从建立链接不同观察值的预测函数到分类观察值到学习未标记数据集的结构，这使得它们适应于普通的老的机器学习，而不需要数十层的神经元，对于这些领域 Scikit-learn 是非常好的选择。Spark MLlibSpark MLlib是Spark的开源机器学习库，提供了通用的机器学习算法，如分类、回归、聚类和协同过滤（但不包括DNN）以及特征提取、转换、维数降低工具，以及构建、评估和调整机器学习管道选择和工具。Spark MLlib还包括用于保存和加载算法、模型和管线、用于数据处理以及进行线性代数和统计的实用程序。Spark MLlib是用Scala编写的，并使用线性代数包Breeze。 Breeze依靠netlib-java来优化数值处理，虽然在开源分布中意味着优化使用CPU。 Databricks提供与GPU配合使用的定制Spark集群，这有可能为您带来另一个10倍的速度改进，用于训练具有大数据的复杂机器学习模型。MLlib实现了大量的分类和回归的常用算法和模型，新手可能变得混乱不堪，无可适从，但专家最终可能会为分析数据找到一个很好的模型的数据。对于这么多的模型Spark2.x增加了超参数调优的重要特性，也称为模型选择。超参数t允许调优分析人员设置参数网格、估计器和评估器，并且它允许交叉验证方法（耗时但准确）或训练验证分割方法（更快但不太准确）找到最佳数据模型。Spark MLlib拥有针对Scala和Java的完整API，主要是针对Python的完整API以及针对R的粗略部分API。您可以通过计算示例来获得良好的覆盖率：54个Java和60个Scala机器学习示例，52个Python机器学习示例，只有五个R示例。在我的经验中，Spark MLlib是最容易使用Jupyter笔记本，但你可以肯定地在控制台运行它，如果你驯服详细的Spark状态消息。Spark MLlib提供了你想要的基本机器学习、特性选择、管道和持久性的任何东西。它在分类、回归、聚类和过滤方面做得相当不错。鉴于它是Spark的一部分，它具有访问数据库、流和其他数据源的强大访问权限。另一方面，SparkMLlib并不真正采用与TensorFlow，MXNet，Caffe和Microsoft Cognitive Toolkit相同的方式建模和训练深层神经网络。Spark MLlibPython示例（Naive Bayes）作为Databricks笔记本。注意解释，代码和输出如何散布。TensorFlowTensorFlow，Google的可移植机器学习和神经网络库，执行和伸缩性很好，虽然它有点难学。TensorFlow拥有各种各样的模型和算法，它们对深度学习非常重视，并且在具有GPU（用于训练）或Google TPU（用于生产规模预测）的硬件上具有出色的性能。它还具有对Python的良好支持，良好的文档和良好的软件，用于显示和理解描述其计算的数据流图TensorBoard。数据流图中的节点表示数学运算，而图的边表示在它们之间流动的多维数据数组（张量）。这种灵活的架构允许您将计算部署到桌面、服务器或移动设备中的一个或多个CPU或GPU，而无需重写代码。使用TensorFlow的主要语言是Python，虽然对C ++有限的支持。TensorFlow提供的教程包括手写数字分类。图像识别、字嵌入、递归神经网络，用于机器翻译的序列到序列模型、自然语言处理和基于PDE（偏微分方程）的模拟的应用。TensorFlow可以方便地处理各种神经网络，包括目前正在急剧变化的图像识别和语言处理领域的深度CNN和LSTM递归模型。用于定义图层的代码可能fan，但是您方便但不详细，可以使用三个可选的深度学习界面中的任何一个来修复它。虽然调试异步网络求解器可以是平凡的，但TensorBoard软件可以帮助您可视化图。TensorBoard显示TensorFlow计算的图形。我们放大了几个部分来检查图形的细节。总结对于任何给定的预测任务，您应该使用哪种机器学习或深度学习包取决于机器学习的复杂性，用于训练的数据量和形式，您的计算资源以及您的编程语言偏好和技能。它也可能取决于您是否喜欢使用代码或配置文件定义模型。但是，在开始自己的模型训练考察之前，您可能希望了解来自Google，HPE和MicrosoftAzure云的任何预先训练的应用机器学习服务是否能够处理您的数据，无论是语音、文本或图像。如果他们对你的数据不能很好地工作，你可能还想在尝试基本的机器学习训练（最后，如果没有其他工作）深度学习训练之前，看看你能用简单的统计方法获得多大的好处。这里的原则是保持分析尽可能简单，但不是更简单。在我讨论的两个基本的机器学习包，我建议喜欢Scala和在Hadoop中有他们的数据的使用Spark MLlib 。我建议喜欢Python的人Scikit-learn。我应该提到那些喜欢Scala（和Java）的人和在Hadoop中有他们的数据的人的另一个选择事Deeplearning4j。我没有评论他，但是，因为其名称意味着它是一个学习深度包。选择Caffe，Microsoft Cognitive Toolkit，MXNet和TensorFlow的深度学习包是一个更困难的决定。我不再建议使用Caffe，因为它的发展停滞不前。然而，选择其他三个中的一个仍然是棘手，因为对于具有类似功能，它们都是最好的选择。Cognitive Toolkit现在有Python和C ++ API以及网络配置语言BrainScript。如果您喜欢使用配置文件而不是编程网络拓扑，那么CognitiveToolkit可能是一个不错的选择。另一方面，它似乎不像TensorFlow一样成熟，它不能在MacOS上运行。MXNet支持Python、R、Scala、Julia和C ++，但其支持最好的API是用Python开发的。 MXNet在多个主机上的多个GPU上展示出良好的伸缩性（85％的线性）。当我评论MXNet的文档和示例是吝啬的，但他们已经改进了。TensorFlow可能是三个包中最成熟的，并且它是一个很好的选择，只要你喜欢编写Python，并可以克服学习曲线。 TensorFlow具有你可以使用基本的构建块，它给你细粒度的控制，但也需要你编写大量的代码来描述一个神经网络。有三个简化的API与TensorFlow一起工作来解决这个问题：tf.contrib.learn，TF-Slim和Keras。支持TensorFlow的最终考虑是TensorBoard，它对于可视化和理解您的数据流图非常有用。转载自：原文：新闻来源：网路冷眼｜翻译
TensorFlow 的详细介绍：
TensorFlow 的下载地址：
转载请注明：文章转载自开源中国社区
本文标题：机器学习和深度学习的最佳框架大比拼
本文地址：3440人阅读
本文知乎链接：
本着两条原则发一波车：
1.不建议报辅导班。不是因为我们不应该为学习知识付费，而是因为有更好的资源，而这些资源恰好免费。报辅导班学习浪费钱倒是次要的，主要是时间有限，所以我们要把最好的时间集中在最高效的事情上。
2.视频资源种类繁多，但我只推荐最好的。就像这世界有那么多种车，而我只开最适合自己的自行车（穷）
Are you ready?
以下课程均有中文字幕：
1.机器学习
机器学习视频我推荐大神Andrew Ng的课程：
Andrew Ng的课程有两个版本，一个是斯坦福大学的公开课，一个是coursera上的课程。我更建议后者。首先是在couresa上讲，Andrew Ng面对的是所有在线的听众，这样自己听课就会有一种带入感，仿佛就在课堂一样，而听斯坦福大学公开课的那个版本自己听起来更像一个旁听生。其次是在couresa上作业，课件齐全，不用再到其他的地方找，减少很多麻烦。
2.深度学习
深度学习我推荐李飞飞团队主讲的《深度学习与计算机视觉》：
课件下载：
剧透一丢丢：第一节李飞飞讲课时怀着孩子，所以只能坐着讲课，但课程内容依然interesting 。
3.推荐个与机器学习，深度学习不相关的课程，Jerry Cain讲的《编程范式》，我只听过前几节，感觉超级赞，就推荐给大家了
OK！第一波已经结束，来第二波
介绍几款常用的python库：
处理数组，矩阵非常有效的库，不会numpy，学后面的白搭。
2.matplotlib
数据可视化（其实就是画图，直方图，折线图，饼状图等等）必备。
pandas主要用于清洗数据，如果输入数据不那么规范（比如有数据丢失或有无效数字），用pandas处理会非常方便。
机器学习必备
5.tensorflow
这个不解释，老司机都懂的！
今天就先开到这里，下车前记得刷卡~
&&相关文章推荐
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：12989次
排名：千里之外
原创：17篇
(1)(4)(1)(3)(8)从Theano到Lasagne：基于Python的深度学习的框架和库
发表于 09:35|
来源http://creative-punch.net/|
作者Creative Punch
摘要：最近，深度神经网络以“Deep Dreams”形式在网站中如雨后春笋般出现，或是像谷歌研究原创论文中描述的那样：Inceptionism。在这篇文章中，我们将讨论几个不同的深度学习框架，库以及工具。
深度学习是机器学习和人工智能的一种形式，利用堆积在彼此顶部的神经网络的多个隐藏层来尝试形成对数据更深层次的“理解”。最近，深度神经网络以“Deep&Dreams”形式在网站中如雨后春笋般出现，或是像中描述的那样：Inceptionism。在这篇文章中，我们将讨论几个不同的深度学习框架，库以及工具。Python深度学习Theano主页：Github网址：Theano不仅是这篇文章中将要讨论的其他框架的核心库，于其自身而言，它也是一个强大的库，几乎能在任何情况下使用，从简单的logistic回归到建模并生成音乐和弦序列或是使用长短期记忆人工神经网络对电影收视率进行分类。Theano大部分代码是使用Cython编写，Cython是一个可编译为本地可执行代码的Python方言，与仅仅使用解释性Python语言相比，它能够使运行速度快速提升。最重要的是，很多优化程序已经集成到Theano库中，它能够优化你的计算量并让你的运行时间保持最低。如果速度的提升还不能满足你，它还内置支持使用在GPU上执行那些所有耗时的计算。所有的这一切仅仅只需要修改配置文件中的标志位即可。在CPU上运行一个脚本，然后切换到GPU，而对于你的代码，则不需要做任何变化。同时我们应该注意到，尽管Theano使用Cython和CUDA对其性能大大提升，但你仍然可以仅仅使用Python语言来创建几乎任何类型的神经网络结构。Pylearn2主页：Github网址：Pylearn2和Theano由同一个开发团队开发，Pylearn2是一个机器学习库，它把深度学习和人工智能研究许多常用的模型以及训练算法封装成一个单一的实验包，如随机梯度下降。你也可以很轻松的围绕你的类和算法编写一个封装程序，为了能让它在Pylearn2上运行，你需要在一个单独的YAML格式的配置文件中配置你整个神经网络模型的参数。除此之外，它还有很多数据集及其预编译好的软件包，所以，你现在就可以直接使用MNIST数据集开始做实验了！BlocksGithub网址：Blocks是一个非常模块化的框架，有助于你在Theano上建立神经网络。目前它支持并提供的功能有：构建参数化Theano运算，称之为“bricks”。在大型模型中使用模式匹配来选择变量以及“bricks”。使用算法优化模型。训练模型的保存和恢复。在训练过程中检测和分析值（训练集以及测试集）。图形变换的应用，如dropout。Keras主页：Github网址：Keras是一个简约的、高度模块化的神经网络库，设计参考了Torch，基于Theano和Python语言编写，支持GPU和CPU。它的开发侧重于实现快速试验和创造新的深度学习模型。如果你需要具有以下功能的深度学习库，采用Keras就恰到好处：可以很容易地、快速地建立原型（通过总体模块化，极简化并且可扩展化）。支持卷积网络和递归网络，以及两者的组合。支持任意连接方式（包括多输入多输出训练）。Keras库与其他采用Theano库的区别是Keras的编码风格非常简约、清晰。它把所有的要点使用小类封装起来，能够很容易地组合在一起并创造出一种全新的模型。CSDN博客上的更多介绍：&LasagneGithub网址：Lasagne不只是一个美味的意大利菜，也是一个与Blocks和Keras有着相似功能的深度学习库，但其在设计上与它们有些不同。下面是Lasagne的一些设计目的：简单化：它应该是易于使用和扩展的机器学习库。每添加一个特征，就应该考虑其对易用性和扩展性的影响。每一个抽象概念的加入都应该仔细检查，以确定增加的复杂性是否合理。小接口：尽可能少的类和方法。尽可能依赖Theano的功能和数据类型，遵循Theano的规定。如果没有严格的必要，不要在类中封装东西。这会使它更容易使用库并且扩展它（不需要有太多的认知）。不碍事：未使用的功能应该是不可见的，用户不会考虑他们不使用的功能。尽可能单独的使用库文件中的组件。透明性：不要试图掩盖Theano，尽量以Python或NumPy数据类型的形式将函数和方法返回给Theano表达式。重点：遵循Unix哲学“做一件事，并把它做好”，重点集中在前馈神经网络。实用主义：使普通用例更易于使用，这要比支持每一个可能的用例更为重要。原文链接：（译者/刘帝伟审校/刘翔宇、朱正贵责编/周建丁）译者简介：&，中南大学软件学院在读研究生，关注机器学习、数据挖掘及生物信息领域。延伸阅读：（From：知乎）&（From：博乐在线翻译）如果您对深度学习框架有更多的见解和心得希望分享，请给小编发送邮件：。如果您想了解更多的深度学习相关产品，请关注。更多人工智能技术分享与交流，请加入CSDN 人工智能技术交流QQ群，群号：。
推荐阅读相关主题：
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号：CSDNnews
相关热门文章}

我爱游戏网

Python与深度学习

我要回帖

更多推荐