为什么在部分机器纪元第二部学习中训练模型时使用GPU的效果比CPU更好

点击联系发帖人 时间：2017-05-19 02:42

机器纪元第二部

声明：本网部分信息转载于其他网站，如稿件涉及版权等问题，请联系我们！E-mail:谷歌定制机器学习芯片强悍比GPU/CPU快
新浪科技讯北京时间4月6日消息，谷歌开发定制芯片，它可以提高机器学习算法的运算速度，这不是什么秘密。谷歌管这些处理器叫作Tensor
Processing
Units(简称TPU)，2016年5月，谷歌在I/O开发者大会上首次展示了TPU，之后再也没有提供更多细节，谷歌只是说它正在用TPU优化TensorFlow机器学习框架。今天，谷歌公布了更多内容。根据谷歌自己制定的基准，TPU执行谷歌常规机器学习任务时，速度比标准GPU/CPU组合产品平均快了15倍至30倍。标准GPU/CPU组合产品将英特尔Haswell处理器与Nvidia
GPU安装在一起。数据中心极为重视能耗，使用TPU后每瓦特性能(也就是TeraOps/Watt，每万亿次/瓦特)提高了30-80倍。请注意，谷歌提供的数据是在生产过程中使用机器学习模型时获得的，并不是最初创建模型时的数据。谷歌还表示，大多数架构师优化芯片是为了提高卷积神经网络的性能，不过卷积神经网络只占了数据中心负载的5%，大部分应用使用的是多层感知器神经网络。2006年，谷歌开始研究如何将GPU、FPGA、定制ASICS应用于数据中心。不过当时并没有太多应用因为特殊硬件获益，许多繁重的任务可以用数据中心多余的硬件完成。到了2013年情况开始改变，当时谷歌认为DNN将会变得流行起来，数据中心的计算需求将会翻倍，如果用传统CPU计算成本相当高。正因如此，谷歌启动一个项目，用定制ASIC完成推算，采购现在GPU用于训练。谷歌报告称，与GPU相比，将成本效益提高10倍就是它的目标。(德克)机器学习很复杂。你可能会遇到一个令你无从下手的数据集，特别是当你处于机器学习的初期。
在这个博客中，你将学到一些基本的关于建立机器学习模型的技巧，大多数人都从中获得经验。这些技巧由Marios Michailidis（a.k.a Kazanova），Kaggle Grandmaster在2016年3月5日现在排名第3位的在线研讨会上共享的。在线研讨会有三个方面：
1.视频（）
2.幻灯片——视频中使用的幻灯片由Marios分享。实际上，是一个丰富的机器学习知识汇编。
3.问答——本博客列出所有参与者在研讨会所问的问题。
成功的关键是坚持不懈。
1.你解决ML问题的步骤是什么？请从头描述。
以下是解决任何ML问题时我所采取的步骤：
1.了解数据——下载数据后，开始探索功能。查看数据类型。检查变量类。创建一些单变量-双变量图来了解变量的性质。
2.了解度量优化——每个问题都有独特的评估指标。你必须理解它，特别是它如何随着目标变量的变化而变化。
3.确定交叉验证策略——为避免过拟合，确定你在初期阶段已经设置了交叉验证策略。一个很好的CV策略将帮助你在排行榜上获得可靠的得分。
4.启动超参数调整——一旦CV在位，尝试使用超参数调整来提高模型的精度。它还包括以下步骤：
数据转换：包括缩放、移除异常值、处理空值、变换分类变量、做特征选择、创建交互等步骤。
选择算法并调整其超参数：尝试多种算法来了解模型性能的变化。
保存结果：从上面训练的所有模型中，确保保存预测。&它们对于集成将是有用的。
组合模型：最后，集成模型，可能在多个层次上。&确保模型相关以获得最佳效果。
2.你解决问题时所采用的模型选择和数据处理技术是什么？
一般来说，我尝试（几乎）一切的大多数问题。原则上：
时间序列：我使用GARCH、ARCH、回归、ARIMA模型等。
图像分类：我在Python中使用深度学习（卷积网）。
声音分类：普通神经网络
高基数分类（如文本数据）：我用线性模型、FTRL、Vowpal wabbit、LibFFM、libFM、SVD等。
对于其他一切，我使用渐变增压机（如XGBoost和LightGBM）和深入学习（如keras、Lasagne、caffe、Cxxnet）。我决定使用特征选择技术来保留/删除元模型的模型。我使用的一些特征选择技术包括：
向前（cv或否）——从空模型开始。一次添加一个特征并检查CV精度。如果改进保持变量，否则丢弃。
向后（cv或否）——从完整模型开始，逐个删除变量。它通过删除任何变量来提高CV精度，丢弃它。
混合（或逐步）——使用以上混合技术。
使用特征的重要性&——使用随机森林、gbm、xgboost特征选择特征。
应用一些统计学的逻辑，如卡方检验、方差分析。
每个问题的数据操作可能不同：
时间序列：你可以计算移动平均数、导数。&去除异常值。
文本：有用的技术是tfidf、countvectorizers、word2vec、svd（维度降低）。词干提取、拼写检查、稀疏矩阵、似然编码、一个热编码（或虚拟）、散列。
图像分类：你可以进行缩放、调整大小、去除噪点（平滑）、注释等
声音：计算Furrier变换，MFCC（Mel频率倒谱系数），低通滤波器等
其他一切：单变量特征变换（如数值数据的日志+1），特征选择，处理空值，去除异常值，将分类变量转换为数字。
3.你能详细说明交叉验证策略吗？
交叉验证意味着从我的主集中随机地创建了2个集。我用第一个集建立（训练）我的算法（让我们称之为训练集），并用另一个评分（让我们称之为验证集）。我重复此过程多次，并始终检查我的模型在测试集上对于我要优化的度量执行的方式。
过程可能如下所示：
10（你选择多少X）次
在训练中分组（原始数据的50%—90%）
和验证（原始数据的10%—50%）
然后在训练集上拟合算法
评分验证集。
保存与所选指标相关的得分结果。
计算这10个（x）次的平均值。
记住使用SEED能够复制这些X分裂
其他需要考虑的事情是KFold和KFold分层。&。对于时间敏感的数据，确保你在测试时总是有过去预测未来的规则。
4.你能解释一些用于交叉验证的技术吗？
随机X％分割
对于大数据，仅一个验证集就足够了（如20％的数据——你不需要多次执行）。
5.你如何提高机器学习的技能？&你使用什么训练策略？
我在2做了资料的汇总。加上很多自己的研究。同时，编程和软件（java）和很多kaggling。
6.哪些是数据科学家最有用的python库？
以下是一些我发现最有用的解决问题的库：
数据可视化
Matplotlib
机器学习/深度学习
Scikit image
自然语言处理
7.当所有的变量本质上是明确的时，什么是有用的ML技术/策略来估算缺失值或预测分类标签。
估算缺失值是关键的一步。&有时你可能会发现缺失值的趋势。&以下是我使用的一些技巧：
使用均值、模式、中位数进行插补
在变量的正常值的范围之外使用值。如- 1，或- 9999等。
用一种可能性替换——例如与目标变量有关的事物。
用有意义的东西代替。例如：有时空可能意味着零
尝试基于已知值子集来预测缺失值
可以考虑删除具有许多空值的行
8.你可以详细说明你所做的硬件投资是什么，即你自己的PC / GPU设置用于深度学习相关任务？还是使用更多的基于云的GPU服务？
到目前为止，我大多数使用自制解决方案（Java）。我的第一场比赛必须汇总三千万行的交易数据，所以我不得不解析数据，而且需要将内存使用率降至最低。
不过，从那时起，我做了一些很好的投资，成为排名第一。&现在，我可以访问linux服务器的32个内核和256 GBM内存。我也有一个geforce 670机器（用于深度学习/ gpu任务）。此外，我现在主要使用Python。但是，如果你真的有兴趣获得最高的收益，你也可以考虑使用亚马逊的AWS，因为如果你使用它很多，成本可能会很高。
9.你是否使用像GPU这样的高性能机器。或者，例如你做关于随机森林参数的网格搜索，这需要大量的时间，所以你使用哪台机器？
对于每个深入学习的训练模式，我都使用GPU。我必须指出，对于深度学习，GPU是必须的。在CPU上训练神经网络需要很长时间，而普通的GPU可以使一个简单的神经网络（例如深度学习）快50-70倍。我不喜欢网格搜索。我这样做相当于手动。我认为在一开始它可能会很慢，但过了一会儿，你可以获得相当好的解决方案与第一组参数！那是因为你可以学习哪些参数最适合每一个问题，并且你可以更好地了解这些算法。
10.人们如何通过改变超参数调整建立大约80个模型？
这需要时间。我有一些过去工作的参数，我用这些值初始化，然后根据现在的问题开始调整它们。&显然，你需要强力探索更多的领域，并丰富这个库关于每个模型过去成功的超参数组合。&你应该考虑别人在做什么。不会只有一组最优的超参数。你可能会在完全不同的一组参数中得到一个和你所拥有的相比类似的分值。
11.如何提高Kaggle排名？
这不是一个一夜之间的事情。你只需要继续学习。&以下是我的一些建议：
学习更好的编程：如果你知道R那么学习python.
继续学习的工具（如下所列）
参加“知识”比赛
看看其他人在内核中做什么或在过去的比赛中寻找“获胜解决方案”
与更多的有经验的人合作，但你需要在此之前稍微提高排名
创建一个代码库
多多参与！
12.你能告诉我们有关机器学习中使用的一些有用的工具吗？
以下是我最喜欢的工具的列表：
：线性模型
支持向量机的
对于所有机器学习模型的
用于快速可伸缩梯度提升的
用于快速记忆效率线性模型的
H2O在R为许多型号
使用Java的
用于因式分解的
含有大量资料的GraphLab
：卷积神经网络中最好的实现之一。难以安装，需要使用NVDIA显卡的GPU。
RankLib：java中最好的适合于支持像NDCG这样的优化功能的排序算法（例如客户级产品）的库。
和用于神经网络。前提你有Theano或Tensorflow。
13.如何从机器学习开始？
我从犹他大学的这些中了解到有关机器学习的一些基本算法和概念。关于python。不要忘记遵循文档。使用anaconda的jupyter笔记本。
你可以在找到许多很好的链接。
另外，你应该去上Andrew Ng的机器学习课程。除此之外，你可以浏览一些好的博客，如mlwave，fastml，analyticsvidhya。但最好的办法是亲自动手。做一些kaggle！先解决有“知识”标志的比赛，，然后开始解决一些主要的问题。尝试解决一些过去的。
14.在Kaggle和一般的大数据集上哪些技术最好？如何解决内存问题？
具有高基数的大数据集可以通过线性模型得到很好的解决。&考虑稀疏模型。像vowpal wabbit这样的工具。&FTRL、libfm、libffm、liblinear是python中的优秀的工具矩阵（像csr矩阵）。考虑在数据的较小部分集成（如结合）模型的训练。
15.涉及机器学习的项目的SDLC（软件开发生命周期）是什么？
在一个工业项目上展开并采取步骤，以便我们能够了解如何使用它们。&基本上，我正在学习阶段，并期待获得行业水平的曝光。
商业问题：如何在线推荐产品以增加购买。
将其翻译成ml问题。在客户可能会点击/购买时尝试预测顾客会买什么并给定一些可用的数据，给定一些历史风险的建议
建立一个测试/验证框架。
找到最佳的解决方案来预测客户最佳选择。
考虑时间/成本效率以及性能
导出模型参数/管道设置
将这些应用到联机环境中。暴露一些客户，但不是所有。保持测试组和对照组
评估算法的运行情况以及随着时间的推移进行调整。
16.你最喜欢的机器学习算法是哪一种？
当然是梯度提升决策树。但在不同的任务中，所有可能都是好的。
17.哪种语言最适合深入学习，R或Python？
我更喜欢Python。我认为它更程序化。&R也很好。
18.在数据科学中转行的人需要从技术技能中获得什么？因为我没有开发人员背景，个人项目是展示我的知识的最好方式吗？
将业务问题转化为机器学习的能力，并将其转化为可解决的问题。
19.你是否同意在一般特征中工程（探索和重组的预测）比改进预测模型在提高准确度上更有效？
原则上是。我认为模型的多样性比一些真正强大的模型要好。但这取决于问题。
阅读全文：&&
阅读(...) 评论()当前位置： →
谷歌宣布正式推出基于云GPU的云机器学习引擎
　　图：pixabay
今天，谷歌正式宣布，推出基于云GPU服务的云机器学习引擎。早在今年二月份，谷歌就宣布，推出了基于NVIDIA K80 的云GPU服务（测试版），既可以用于运行计算量大的工作负载，如Google的计算引擎，也可以用于大规模机器学习。现在，从谷歌的一些客户中已经能看到使用这些云GPU进行机器学习，带来了性能的显著提升。
比如，空中客车公司（Airbus）用于检测卫星图像中云的深度学习模型，使用云机器学习引擎会比在CPU上运行速度快40倍，同时，使用分布式训练可将训练时间从50小时减少到30分钟，并将错误率从11％降低到3％。
Global Fishing Watch（谷歌与非营利组织合作成立的全球渔业观察站）也采用了深度学习的方法来检测过度捕捞，对1.4亿平方英里的海洋全面监测。在使用云GPU上的机器学习引擎后，同样也获得了超过CPU10倍速度的体验。
图：SkyTruth（非营利组织，通过航空和卫星图像追踪景观变化），捕获三种不同类型渔船的运动以查明捕鱼行为
机器学习技术日益发展成熟，目前还不清楚什么类型的基础设施将占主导地位，但谷歌期待更多的客户和组织通过使用云机器学习引擎，以扩大和提升机器学习的能力。或者是建立和训练机器学习算法，这类需要大量计算能力为驱动力的程序，利用可并行工作的GPU不失为最好的方法。
来源：Google cloud platform
关注官方微信
扫一扫分享本文到朋友圈
联系我们：
&(发送邮件时，请把#换成@)
投稿信箱：
&(发送邮件时，请把#换成@)
企业网版权所有从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？ - 机器人论坛 -
中国电子技术论坛 -
最好最受欢迎电子论坛!
后使用快捷导航没有帐号？
Hot [直播]
从CPU、GPU再到TPU，Google的AI芯片是如何一步步进化过来的？
11:40:15　　
本帖最后由 vinsh 于
11:50 编辑
本文作者栗向滨，中科院自动化所复杂系统国家重点实验室研究生，主攻机器人与人工智能。
p.jpg (68.97 KB, 下载次数: 0)
11:43 上传
Google I/O是由Google举行的网络开发者年会，讨论的焦点是用Google和开放网络技术开发网络应用。这个年会自2008年开始举办，到今年已经是举办的第9届了。
在今年的年会上，Google主要发布了以下8种产品：智能助手Google Assistant，与Amazon Echo竞争的无线扬声器和语音命令设备Google Home，消息应用Allo，视频呼叫应用Duo，VR平台Daydream，独立应用程序的支持Android Wear 2.0，允许不安装而使用应用的Android Instant Apps，以及允许在Chromebook上使用Android应用Google Play on Chrome OS。
而这8中产品主要都集中在了软件领域。
2.jpg (33.29 KB, 下载次数: 0)
11:43 上传
Google I/O 2016现场图&&via：
在Google I/O 2016的主题演讲进入尾声时，Google的CEO皮采提到了一项他们这段时间在AI和机器学习上取得的成果，一款叫做Tensor Processing Unit（张量处理单元）的处理器，简称TPU。在大会上皮采只是介绍了这款TPU的一些性能指标，并在随后的博客中公布了一些使用场景，并没有对这款处理器的架构以及内部的运作机制进行详细阐述，所以我们也许需要从一些常见的处理器的结构出发，试图猜测与探究下这款用于机器学习的专属芯片到底有着怎样的一个面孔。
3.jpg (28.56 KB, 下载次数: 0)
11:43 上传
Tensor processing unit实物图 via：
首先我们先来看看我们最熟悉的中央处理器（Central Processing Unit），简称CPU。它是一种超大规模的集成芯片，而且是一种通用芯片，也就是说，它可以用它来做很多种类的事情。我们日常使用的电脑使用的处理器基本上都是CPU，看个电影、听个音乐、跑个代码，都没啥问题。
▌我们来看看CPU的结构
CPU主要包括运算器（ALU，Arithmetic and Logic Unit）和控制器（CU，Control Unit）两大部件。此外，还包括若干个寄存器和高速缓冲存储器及实现它们之间联系的数据、控制及状态的总线。从上面的叙述我们可以看出，CPU主要包含运算逻辑器件、寄存器部件以及控制部件等。
4.jpg (20.8 KB, 下载次数: 0)
11:43 上传
CPU结构简化图 via：blog.csdn.net
从字面上我们也很好理解，运算逻辑器件主要执行算术运算、移位等操作，以及地址运算和转换；寄存器件主要用于保存运算中产生的数据以及指令等；控制器件则是负责对指令译码，并且发出为完成每条指令所要执行的各个操作的控制信号。
我们可以运用下面这张图来说明一条指令在CPU中执行的大致过程：
5.jpg (29.38 KB, 下载次数: 0)
11:43 上传
CPU执行指令图 via：blog.csdn.net
CPU从程序计数器取到指令，通过指令总线将指令送至译码器，将转译后的指令交给时序发生器与操作控制器，然后运算器对数据进行计算，通过数据总线将数据存至数据缓存寄存器。
我们从CPU的结构以及执行过程可以看出，CPU遵循的是冯诺依曼架构，冯诺依曼的核心就是：存储程序，顺序执行。
从上面的描述我们可以看出，CPU就像一个有条不紊的管家，我们吩咐的事情总是一步一步来做。但是随着摩尔定律的推进以及人们对更大规模与更快处理速度的需求的增加，CPU好像执行起任务来就不那么令人满意了。于是人们就想，我们可不可以把好多个处理器放在同一块芯片上，让他们一起来做事，这样效率是不是就会高很多，这是GPU就诞生了。
▌GPU诞生了
GPU全称为Graphics Processing Unit，中文为图形处理器，就如它的名字一样，GPU最初是用在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上运行绘图运算工作的微处理器。因为对于处理图像数据来说，图像上的每一个像素点都有被处理的需要，这是一个相当大的数据，所以对于运算加速的需求图像处理领域最为强烈，GPU也就应运而生。
6.jpg (20.22 KB, 下载次数: 0)
11:43 上传
CPU与GPU结构对比示意图 via：
通过CPU与GPU结构上的对比我们可以看出，CPU功能模块很多，能适应复杂运算环境；GPU构成则相对简单，大部分晶体管主要用于构建控制电路（比如分支预测等）和Cache，只有少部分的晶体管来完成实际的运算工作。而GPU的控制相对简单，且对Cache的需求小，所以大部分晶体管可以组成各类专用电路、多条流水线，使得GPU的计算速度有了突破性的飞跃，拥有了更强大的处理浮点运算的能力。当前最顶级的CPU只有4核或者6核，模拟出8个或者12个处理线程来进行运算，但是普通级别的GPU就包含了成百上千个处理单元，高端的甚至更多，这对于多媒体计算中大量的重复处理过程有着天生的优势。
这就好比在画一幅画的时候CPU是用一支笔一笔一笔的来画，而GPU则是多支笔对不同的位置同时进行描绘，那自然效率就是突飞猛进的。
7.jpg (20.14 KB, 下载次数: 0)
11:43 上传
英特尔CPU与英伟达GPU性能对比图 via：.cn
虽然GPU是为了图像处理而生的，但是我们通过前面的介绍可以发现，它在结构上并没有专门为图像服务的部件，只是对CPU的结构进行了优化与调整，所以现在GPU不仅可以在图像处理领域大显身手，它还被用来科学计算、密码破解、数值分析，海量数据处理（排序，Map-Reduce等），金融分析等需要大规模并行计算的领域。所以GPU也可以认为是一种较通用的芯片。
▌ FPGA应运而生
随着人们的计算需求越来越专业化，人们希望有芯片可以更加符合我们的专业需求，但是考虑到硬件产品一旦成型便不可再更改这个特点，人们便开始想，我们可不可以生产一种芯片，让它硬件可编程。也就是说——
& && & 这一刻我们需要一个比较适合对图像进行处理的硬件系统，下一刻我们需要一个对科学计算比较适合的硬件系统，但是我们又不希望焊两块板子，这个时候FPGA便应运而生。
FPGA是Field Programmable Gate Array的简称，中文全称为场效可编程逻辑闸阵列，它是作为专用集成电路领域中的一种半定制电路而出现的，既解决了全定制电路的不足，又克服了原有可编程逻辑器件门电路数有限的缺点。
FPGA运用硬件描述语言（Verilog或VHDL）描述逻辑电路，可以利用逻辑综合和布局、布线工具软件，快速地烧录至FPGA上进行测试。人们可以根据需要，通过可编辑的连接，把FPGA内部的逻辑块连接起来。这就好像一个电路试验板被放在了一个芯片里。一个出厂后的成品FPGA的逻辑块和连接可以按照设计者的需要而改变，所以FPGA可以完成所需要的逻辑功能。
8.jpg (23.97 KB, 下载次数: 0)
11:43 上传
FPGA结构简图 via：dps-az.cz/vyvoj
FPGA这种硬件可编程的特点使得其一经推出就受到了很大的欢迎，许多ASIC（专用集成电路）就被FPGA所取代。这里需要说明一下ASIC是什么。ASIC是指依产品需求不同而定制化的特殊规格集成电路，由特定使用者要求和特定电子系统的需要而设计、制造。这里之所以特殊说明是因为我们下面介绍的TPU也算是一种ASIC。
FPGA与ASIC芯片各有缺点，FPGA一般来说比ASIC的速度要慢，而且无法完成更复杂的设计，并且会消耗更多的电能；而ASIC的生产成本很高，如果出货量较小，则采用ASIC在经济上不太实惠。但是如果某一种需求开始增大之后， ASIC的出货量开始增加，那么某一种专用集成电路的诞生也就是一种历史趋势了，我认为这也是Google生产Tensor processing unit的一个重要出发点。至此，TPU便登上历史舞台。
随着机器学习算法越来越多的应用在各个领域并表现出优越的性能，例如街景、邮件智能回复、声音搜索等，对于机器学习算法硬件上的支持也越来越成为一种需要。目前很多的机器学习以及图像处理算法大部分都跑在GPU与FPGA上面，但是通过上面的讲述我们可以知道，这两种芯片都还是一种通用性芯片，所以在效能与功耗上还是不能更紧密的适配机器学习算法，而且Google一直坚信伟大的软件将在伟大的硬件的帮助下更加大放异彩，所以Google便在想，我们可不可以做出一款专用机机器学习算法的专用芯片，TPU便诞生了。
9.jpg (25.3 KB, 下载次数: 0)
11:43 上传
TPU板卡图 via：
▌Google想做一款专用机机器学习算法的专用芯片——TPU
从名字上我们可以看出，TPU的灵感来源于Google开源深度学习框架TensorFlow，所以目前TPU还是只在Google内部使用的一种芯片。
Google其实已经在它内部的数据中心跑TPU跑了一年多了，性能指标杠杠的，大概将硬件性能提升了7年的发展时间，约为摩尔定律的3代。对于性能来说，限制处理器速度的最大两个因素是发热与逻辑门的延迟，其中发热是限制速度最主要的因素。现在的处理器大部分使用的是CMOS技术，每一个时钟周期都会产生能量耗散，所以速度越快，热量就越大。下面是一张CPU时钟频率与能量消耗的关系，我们可以看到，增长是指数性的。
10.jpg (22 KB, 下载次数: 0)
11:43 上传
CPU时钟频率与功耗关系图&&via：
从TPU的外观图我们可以看出，其中间突出一块很大的金属片，这便是为了可以很好地对TPU高速运算是产生大量的热进行耗散。
TPU的高性能还来源于对于低运算精度的容忍，也就是说每一步操作TPU将会需要更少的晶体管。在晶体管总容量不变的情况下，我们就可以单位时间在这些晶体管上运行更多的操作，这样我们就可以以更快的速度通过使用更加复杂与强大的机器学习算法得到更加智能的结果。我们在TPU的板子上看到了插条，所以目前Google使用TPU的方式是将载有TPU的板子插在数据中心机柜的硬盘驱动器插槽里来使用。
而且我觉得TPU的高性能还来源于它数据的本地化。对于GPU，从存储器中取指令与数据将耗费大量的时间，但是机器学习大部分时间并不需要从全局缓存中取数据，所以在结构上设计的更加本地化也加速了TPU的运行速度。
11.jpg (48.04 KB, 下载次数: 0)
11:43 上传
AlphaGo对战李世乭比赛中使用的载有TPU的服务器机架，不知道为什么侧面贴的围棋图有种萌感。via：
在Google数据中心的这一年来，TPU其实已经干了很多事情了，例如机器学习人工智能系统RankBrain，它是用来帮助Google处理搜索结果并为用户提供更加相关搜索结果的；还有街景Street View，用来提高地图与导航的准确性的；当然还有下围棋的计算机程序AlphaGo，其实这一点上也有个很有趣的地方，我们在描述AlphaGo的那篇Nature文章中看到，AlphaGo只是跑在CPU+GPUs上，文章中说AlphaGo的完整版本使用了40个搜索线程，跑在48块CPU和8块GPU上，AlphaGo的分布式版本则利用了更多的机器，40个搜索线程跑在1202个CPU和176块GPU上。
这个配置是和樊麾比赛时使用的，所以当时李世乭看到AlphaGo与樊麾的对弈过程后对人机大战很有信心。但是就在短短的几个月时间，Google就把运行AlphaGo的硬件平台换成了TPU，然后对战的局势就艰难了起来。
那么除了TPU可以更好更快地运行机器学习算法，Google发布它还有什么其他目的。我觉得说的玄幻一些，Google也许在下一盘大棋。
Google说他们的目标是在工业界的机器学习方面起到先锋带头作用，并使得这种创新的力量惠及每一位用户，并且让用户更好地使用TensorFlow 和 Cloud Machine Learning。其实就像微软为它的HoloLens增强现实头显配备了全息处理单元（holographic processing unit，HPU），像TPU这样的专业硬件只是它远大征程的一小步，不仅仅是想让自己在公共云领域超过市场老大Amazon Web Services (AWS)。随着时间的推移，Google会放出更多的机器学习API，现在Google已经推出了云机器学习平台服务和视觉API，我们可以相信，做机器学习技术与市场的leader才是Google更大的目标。
转载自：雷锋网
19个问题&&&&&&&&14282个浏览
30个问题&&&&&&&&6572个浏览
CellWise周军
21个问题&&&&&&&&7613个浏览
通过本次直播，你将学会：
1.如何快速实现传统硬件产品智能化
2.结合机智云智能硬件APP和MCU实操经验
3.在实际应用中需要注意规避哪些常见关键问题
4.掌握如何实现传统硬件连接互联网，快速实现产品智能化
即日起至6月15日，参与英蓓特NXP产品知识小测验,即有机会赢取最新系列开发板。特别奖SBC-EC9100开发板1套，幸运奖FRDM系列最新开发板（型号随机，共10套）。快来参加吧！ >> 立即参加
Powered by}

我爱游戏网