杨开慧最漂亮的照片照片和强大算法真能帮Google+崛起吗

算法时代到来,工程师能取代人工编辑吗?
来源:钛媒体
作者:严九元
原标题:算法时代到来,工程师能取代人工编辑吗?
  摘要: 当只有一个人在做某件事情的时候,那可能是探索,但当很多人都在做同一件事的时候,那可能意味着一个新时代的降临。
  1. 里程碑:算法推送超过人工推送
  细心的人会发现,现在随便打开一个视频网站或新闻资讯APP,都会有“个性推荐”或“猜你喜欢”之类的栏目,系统会根据你的浏览记录和爱好,自动为你推荐内容。
  两年前,这种个性化推荐并不常见,而近来已成为各大渠道的主流配置。
  当只有一个人在做某件事情的时候,那可能是探索,但当很多人都在做同一件事的时候,那可能意味着一个新时代的降临。
  近日,第三方监测机构易观发布了一个具有“里程碑式意义”的数据:2016年,在资讯信息分发市场上,算法推送的内容将超过50%。
  这成为一个分水岭。它意味着,我们以后接触到的信息,将主要由“智能机器人”为我们准备,而以往看似不可或缺的“人工编辑”角色,则不可避免地被边缘化。
  自2012年今日头条开启算法分发的尝试,4年之后,算法时代正式宣告来临。
  人类的信息分发模式经历了三种主要形态:专业编辑―社交传播―算法推送。算法模式能不能成为信息分发领域“历史的终结”?
  冷战结束后,美国学者福山提出现代民主制度也许是“人类最后一种统治形式”,并因此构成“历史的终结”。以此为喻,算法推送是不是信息分发的最终形态?还会有其他模式挑战它吗?
  2. 三张图包含所有秘密
  当我们称一个时代到来时,绝不仅是基于一个指标。它应是新主角对关键性资源的“全面接管”。
  互联网最重要的三个要素是资本、流量、人才。
  1. 资本
  先看这张图。
  这张图显示,不仅各大传统门户客户端加入了算法潮流,BAT在2016年到来时也悉数出手。各种资源开始向算法推送聚集。因此,2016年成为拐点,并非偶然。
  现有资讯分发产品可分为三类:媒体型,倚重人工编辑;关系型,依托社交链传播;算法型,基于算法对信息和人进行匹配。
  这三种类型的产品各有特色,各有阵地。不过,眼下的一个大变化是,媒体型产品和关系型产品纷纷纳入算法功能,无形中向算法型产品靠拢。
  当搜狐新闻、网易新闻和微信、微博都开始往自身产品功能添加算法时,标志着算法已经成为几乎所有主流资讯分发产品的标配。
  互联网升级为人们生活和生产的基础设施,这是互联网时代到来的标志;而算法被设定为资讯分发不可或缺的主要驱动力乃至唯一驱动力,则无疑是“算法时代”最好的注脚。
  资本对新趋势最敏锐。可以看到,资讯产品领域,风投的大手笔基本集中在算法类产品。
  今日头条C轮融资获得红杉资本领投的1亿美元;
  一点资讯获得凤凰新媒体的四次投资,总额超过7400万美元;
  天天快报,腾讯砸下重金以及巨大的流量支持。
  艾瑞咨询7月份发布了2016年中国独角兽企业估值榜。在前300强的排名中,“新闻资讯”行业的上榜企业只有三家,其中算法资讯分发平台有两家,分别是排名第6位的今日头条和排名189位的一点资讯,另一家是排在121位的36氪。今日头条以92.3亿美金的估值,仅次于蚂蚁金服、小米、滴滴、陆金所、新美大等巨头。
  不久前,甚至有传言腾讯以高达80亿美元的估值投资今日头条。虽然消息被今日头条创始人张一鸣否认,但终不免引人浮想联翩:难道腾讯无法用产品来打败对手,最后只能用资本来收购这个“算法分发”的独角兽?
  2. 流量
  流量之于互联网,犹如土地之于地产商,是价值的来源、一切的根本。
  看下面这张图:
  注:算法类客户端以今日头条、天天快报和一点资讯为样本;非算法类客户端为新浪新闻、网易新闻、腾讯新闻、搜狐新闻和凤凰新闻为样本。数据来源:安卓市场
  算法类资讯客户端下载量的增长速度,远远高于非算法类产品,差距多达2倍以上。
  算法类产品,增长率都在50%以上,处于高速成长期。传统门户类产品,则明显感受到了“天花板”,有的只有百分之十几的增长率,这在互联网界与“停滞”同义。
  越来越多的用户和流量将集中在算法类产品上。
  根据前面提及的易观发布的数据,算法推送的内容今年将超过50%,完全占据主体地位。
  对于流量的准确描述是:流量=用户数X使用时长。
  现在有意思的一个现象,传统门户类产品在用户数上还占有优势,但平均使用时长大大落后于算法类产品。
  TrustData发布的数据显示,2015年10月,今日头条平均用户每日打开时长为41.8分钟,而网易新闻和凤凰新闻分别是26.1分钟和24.7分钟,腾讯新闻仅为19.8分钟,不到今日头条的一半。2016年8月,今日头条的平均用户每日打开时长已经超过70分钟。
  使用时间长,意味着给用户的信息,更对胃口,更为精准,更具粘性,一用就停不下来。这是算法类产品抢占流量高地最令人恐怖的地方。
  3. 人才
  三要素中,钱是最敏锐的,人是最理性的。人才变动是反映趋势的一个重要指标。
  上图是各资讯客户端及视频类网站近期的招聘统计。整体来看,内容分发环节,各大机构对于算法工程师的需求大于人工编辑。
  无论是今日头条、天天快报等算法类产品,还是搜狐新闻、新浪新闻等老牌门户,都在重建内容分发的人员结构。占据重要流量的视频类产品,发力更为明显,爱奇艺和乐视招聘的算法人员之多,远超于人工编辑。
  收入上,算法工程师月薪起点25000元,人工编辑为8000元,相差3倍。各机构宁愿支付更多的人员成本,一定是算法的方向能产生更高效率。
  算法工程师普遍吃香,折射的是算法分发的欣欣向荣。
  以上,从资本、流量、人才三个核心资源的流向来看,算法时代来临毋庸置疑。
  3. 算法崛起的根本动因
  算法为什么会接管信息分发的大权?在于两个关键词:“免于匮乏”与“免于过载”。
  人类的信息传播经历了“匮乏”和“过载”两个阶段。
  互联网之前的所有媒介形态,就是在解决信息匮乏问题。报纸最初只有一页纸,后来发展到上百个版面皆为常事。从报纸到广播再到电视,更是文字向音频、视频的跨越,信息的丰富程度呈几何级增加,最后网络把这几种形态都囊括其中,集大成。
  这一步步的进化,就是满足人们的信息饥渴。免于匮乏,多即是好。
  如果以数据单位来描述不同媒介之间信息量的大小,大致是:
  报纸文章是KB量级,1KB大约是500个汉字。
  广播节目是MB量级,1MB音频节目的数据量约等于60万个汉字。
  电视节目是GB量级,1GB视频节目的数据量相当于7.5亿个汉字。
  网站更新是TB量级,1TB约等于9000亿个汉字。
  这一阶段,媒介演化主要是通过两种方式来追求信息的“免于匮乏”:
  增大数量。比如报纸增加版面,电视增加细分频道等。
  减少延时。从印刷媒介到电子媒介,事件从发生到传播的时间间隔越来越短,直播更实现了同步。
  免于匮乏的需求终于在互联网时代得以实现。信息爆炸,由匮乏转为过载,此时最大的痛点,是如何在海量资讯中过滤出最适合用户的信息。
  解决信息过载,出现了三种模式。
  首先是编辑分发模式,由专业编辑筛选出重要信息,依序放在网站不同位置。这实际上是传统媒体模式的照搬,只能解决头部信息的问题,无法处理海量的长尾信息,也与互联网“去中心化”相背离。
  接着出现了社交分发模式。你的朋友、你关注的人帮你推荐、过滤信息,他们的评论、转发形成了一种信息筛选机制。
  社交分民模式最大的颠覆,是大众传播史上第一次实现了“千人千面”。不同的人通过不同的“朋友圈”有了个性化的信息世界。
  2010年Facebook主页访问量超过Google,可以看作是“社交分发”在全球成为主流的里程碑。
  随后情况就出现了一些变化。“社交分发”的机制,慢慢出现了某种“退化”。
  有分析者概括了这种“退化”的几个重要特征:
  极少部分组织(比如大V)垄断平台上极大部分的流量,掌握流量分配权;
  新兴内容生产者获取流量成本剧增;
  用户社交关系爆炸,基于社交关系的推荐质量不断降低;
  内容生产源爆炸,信息过滤难度几何增加。
  直观来看,就是微信朋友圈中养生、微商、晒娃晒吃类的无效信息越来越多;微博上则是大V和营销类账号占据了主体流量。随着用户社交关系数量的增加,信息过载逐渐加重。单纯通过社交分发并不能解决信息过载问题。
  因此,第三种模式算法分发模式出现。根据用户的行为数据进行个性化推荐,试图做到更精准。
  Facebook是主流社交平台中最早开始布局算法推荐机制的。时至如今,机器算法在facebook的分发机制中已经非常重要。
  而最近微信推出“朋友圈热文”,也是引入算法机制来提高信息推送质量。
  算法之所以能有效地抵御社交分发机制的“退化”,有分析者认为是因为:
  算法对流量的分配独立于社交关系,不被“大号”垄断;
  算法能够处理的信息量几乎没有上限;
  算法能够对用户的社交推荐机制进行二次过滤,优化推荐结果
  正是这些特点,使算法在这两年异军突起,成为信息分发的主流。
  在信息分发上,人类对“免于匮乏”的追求,历经上百年,终于在互联网时代得以实现。现在,对“免于过载”的追求还开始不久,在技术的帮助下,用最短的时间找到了“社交+算法”的利器,并在2016年成为信息分发史上的拐点。
  4. 美丽新世界
  算法时代会带来什么变化?
  我们不去多谈用户中心的彻底实现、人工分发的逐渐消失、内容创业者的篷勃兴起等人所皆知的事实。我们关注一点:算法时代对“汝之毒药,我之甘饴”的重新诠释。
  “汝之毒药,我之甘饴”,意味着信息价值的重估。你觉得不感兴趣甚至是垃圾的信息,对于我可能极有价值。
  信息不再有统一的标准,不再有绝对的高低之分。对刚生下宝宝的妈妈来说,PM值绝对比英国脱欧更重要。对旅游者来说,当地的天气信息绝对比当地的房价更重要。
  “汝之毒药,我之甘饴”,信息偏好的差异其实一直都存在,只是以前的分发模式无法区分。算法时代,每个人都有了自己的头条,这一点得以实现。整个信息世界大一统的秩序被打破。
  这使得长尾信息被极大激活。“两个PS教学者的故事”很能说明这一点。
  2016月6月起,一位网友在国内某知名视频网站创立了自频道“PS零基础教学”,上传PS教学内容。从视频质量来看,品质在平均水准之上,对PS初学者很有帮助。
  两个月内,博主上传约70个视频,然而,其自频道总播放量竟没超过600,平均每个视频播放量还不超过10,订阅者也仅有4人。
  流量的惨淡无疑给热情的博主浇了一盆冷水。7月8日后,博主停止了自频道更新。
  有趣的是,在Youtube网站上,一位名为“Justin Odisho”的网友今年3月份同样创立了一个PS教学自频道,在其前两个月的24个教学视频,最低的点击量有541,最高达4万。
  仅六个月,Justin Odisho即吸引了超过6万名订阅者,总点击量数十万。
  两个PS教学自媒体在流量上的巨大差异,有运营时间、内容特点等因素的影响,除此之外,一个非常重要的原因在发生作用――两个视频平台不同的流量分配机制。
  国内视频平台以人工推荐为主,长尾内容无法顾及。YouTube是以算法推荐为主,能把长尾内容分发到需要它的人。
  算法机制下,每条信息找到了生命,找到了该去的地方。这构成了一个全新的信息世界。
  这其中甚至包括广告。某种意义上,广告只要在正确的时间出现在对的人面前,那么它就是有用的信息,受众不会反感,反而会乐于接受。算法根据用户需求推荐信息,广告也能变成有用的资讯,原生广告的前景值得看好。
  5. 历史的终结?
  回到文章开头提出的问题,算法来了,这会是信息分发“历史的终结”吗?
  目前来看,算法还存在两大问题:
  1. 信息源瓶颈
  信息分发的效果,与信息源紧密相关:1.数量上,能否抓取到足够多的信息;2.质量上,信息源是否有足够品质。信息源瓶颈不解决,再强的分发技术也会成为无米之炊。可以看到,各个平台正在弥补这方面的短板:将算法从图文资讯扩展到音频视频,试图提升信息的量级和丰富度有了明显提升;与此同时,为了改善内容供给端的质量,各大平台相继砸重金扶持自媒体,奖励优质的原创内容。算法是整个资讯传播生态中的一环,它既受整个生态的制约,但又改变着这个生态。
  2. 算法精确性
  算法如果精确度不够,由算法来分发资讯同样会导致很多噪音。对算法工程师来说,提高精确性是永无止境的挑战,精确到什么程度?或许能达到读心术的境地。
  最后的分发机制或许是这样的:系统囊括每一条信息、每一个数据,同时也分析出用户所有的需求(甚至包括潜在的),在此基础上实现“所有信息对所有人”的分发,在信息海洋中,每个人收到的是自己需要的和应该知道的信息,不稀缺,也不过载。
  这是信息乌托邦,也是信息传播的最后图景。
  【钛媒体作者:严九元;微信公众号:智谷趋势】
(责任编辑:陈洋)
&&&&&&</div
搜狐财经致力遇汇集变革力量,评出“中国最具变革力人物&#8226;公司”[]
图解财经:
今日主角:
客服热线:86-10-
客服邮箱:http://kuaibao.qq.com/s/HUGL00?refer=cp_1026分享分享快讯到朋友圈分享快讯到 QQ分享快讯到 QQ 空间分享快讯到微博复制链接到剪贴板相似图片搜索的原理 - 阮一峰的网络日志
相似图片搜索的原理
上个月,Google把正式放上了首页。
你可以用一张图片,搜索互联网上所有与它相似的图片。点击中照相机的图标。
一个对话框会出现。
你输入网片的网址,或者直接上传图片,Google就会找出与其相似的图片。下面这张图片是美国女演员Alyson Hannigan。
上传后,Google返回如下结果:
类似的"相似图片搜索引擎"还有不少,甚至可以找出照片的拍摄背景。
==========================================================
这种技术的原理是什么?计算机怎么知道两张图片相似呢?
根据博士的解释,原理非常简单易懂。我们可以用一个快速算法,就达到基本的效果。
这里的关键技术叫做"感知哈希算法"(Perceptual hash algorithm),它的作用是对每张图片生成一个"指纹"(fingerprint)字符串,然后比较不同图片的指纹。结果越接近,就说明图片越相似。
下面是一个最简单的实现:
第一步,缩小尺寸。
将图片缩小到8x8的尺寸,总共64个像素。这一步的作用是去除图片的细节,只保留结构、明暗等基本信息,摒弃不同尺寸、比例带来的图片差异。
第二步,简化色彩。
将缩小后的图片,转为64级灰度。也就是说,所有像素点总共只有64种颜色。
第三步,计算平均值。
计算所有64个像素的灰度平均值。
第四步,比较像素的灰度。
将每个像素的灰度,与平均值进行比较。大于或等于平均值,记为1;小于平均值,记为0。
第五步,计算哈希值。
将上一步的比较结果,组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。组合的次序并不重要,只要保证所有图片都采用同样次序就行了。
= 8f373714acfcf4d0
得到指纹以后,就可以对比不同的图片,看看64位中有多少位是不一样的。在理论上,这等同于计算(Hamming distance)。如果不相同的数据位不超过5,就说明两张图片很相似;如果大于10,就说明这是两张不同的图片。
具体的代码实现,可以参见用python语言写的。代码很短,只有53行。使用的时候,第一个参数是基准图片,第二个参数是用来比较的其他图片所在的目录,返回结果是两张图片之间不相同的数据位数量(汉明距离)。
这种算法的优点是简单快速,不受图片大小缩放的影响,缺点是图片的内容不能变更。如果在图片上加几个文字,它就认不出来了。所以,它的最佳用途是根据缩略图,找出原图。
实际应用中,往往采用更强大的算法和算法,它们能够识别图片的变形。只要变形程度不超过25%,它们就能匹配原图。这些算法虽然更复杂,但是原理与上面的简便算法是一样的,就是先将图片转化成Hash字符串,然后再进行比较。
UPDATE()
这篇文章还有续集,请看。
彩票怎样才能中奖?
我对图像处理一直很感兴趣,曾经写过好几篇博客(1,2,3,4)。
统计学里面,正态分布(normal distribution)最常见。男女身高、寿命、血压、考试成绩、测量误差等等,都属于正态分布。
眼下最热门的技术,绝对是人工智能。深度 | AI芯片之智能边缘计算的崛起——实时语言翻译、图像识别、AI视频监控、无人车这些都需要终端具有较强的计算能力,从而AI芯片发展起来是必然,同时5G网络也是必然
深度 | AI芯片之智能边缘计算的崛起——实时语言翻译、图像识别、AI视频监控、无人车这些都需要终端具有较强的计算能力,从而AI芯片发展起来是必然,同时5G网络也是必然
from:https://36kr.com/p/5103044.html
到2020年,大多数先进的ML袖珍电脑(你仍称之为手机)将有能力执行一整套任务。个人助理将变的更加智能,它是打造这种功能的切入点。
from:https://36kr.com/p/5103044.html
到2020年,大多数先进的ML袖珍电脑(你仍称之为手机)将有能力执行一整套任务。个人助理将变的更加智能,它是打造这种功能的切入点。语音识别会不断优化。私人助理将不仅仅是云端搜索引擎的前端。因为个人AI将有拥有真正处理分析数据的能力,并使用搜索引擎来搜索数据。
以下是我的几个预测:
1)实时健康分析 - 当前,智能手表会监控您的心率和步数,并将其发送到您的手机中,之后手机会将其发送到云端。在不久的将来,您的个人AI将会实时读取这些数据并进行分析,例如,如果您有心脏病或中风等病史,个人AI会尽早提醒您注意防范。为了实现这些功能,智能手表中内置的复杂传感器的数量将会增加。传感器技术的进步将是供人工智能发展的关键,因为我们需要性能更强大,体积更小的传感器来适应手表。
2)环境分析 – 另一种可能的情况是袖珍电脑可以用来分析你周围的环境。空气质量在世界许多地方都是一个问题。想象一下,拿出你的设备,读取一些基本的指数,然后机器学习就能告诉你这个地方的空气是否安全,空气中有哪些风险。这对旅行者来说非常实用。我想再次强调,开发更好的传感器是至关重要的。设想一种可以分析水中成分的传感器会告诉您饮料是否安全,这在一些国家非常有用。
3)实时语言翻译 - 诸如Skype之类的产品已经拥有类似功能,但是边缘设备可以进一步加强这种功能。想象一下,未来版本的Skype可以利用个人AI来提高实时翻译效率(将译文发送到云端,并一直到另一端)。
4)自定义应用程序 - 一旦边缘设备拥有处理能力和传感器,那么将有很多基于此创建的应用程序。基于环境传感器,我们可以为身处危险环境中的工人创建一款应用程序。除了原始的传感器读数之外,个人AI引擎还可以增加实际价值,提供近乎实时的画面。这样,更多相关数据将被发送到云端更大的引擎中。而利用这些数据训练模型将会进一步提高模型的准确率。
深度 | AI芯片之智能边缘计算的崛起
from:https://www.leiphone.com/news/TOPUfPdFWFr6O3.html
基础层、算法层与应用层是人工智能产业链的三个组成部分。人工智能(AI)正在作为基础技术,改变不同的行业,并具有极其广阔的应用市场。考虑到深度学习等AI算法开源的发展趋势,基础层的数据与芯片将在未来竞争中占据越来越重要的地位。作为人工智能发展支柱的AI芯片(特指专门针对AI算法做了特定设计的芯片)更是人工智能行业的核心竞争力。
基于深度神经网络(DNN)在各个应用中表现出的巨大优势,本文的AI仅限于深度学习。下文将从AI计算与AI芯片出发,分析不同种类AI芯片间的区别,探索应用于终端推断(Edge Inference,EI)的AI芯片,即AI-EI芯片,并给出AI-EI芯片硬件架构特性,讨论多家AI-EI芯片公司,最后给出AI-EI芯片发展趋势及投资逻辑。
一、AI计算及AI芯片
近几年,深度神经网络(DNN)在图像识别、自然语言处理等方向上取得了前所未有的成功,并推动相关行业的快速发展。但是,这些应用中使用的深度神经网络的参数量巨大,模型训练(training)与推断(inference)都需要大量的计算,传统计算芯片的算力无法满足DNN计算需求。具有高算力的AI芯片能够满足AI行业计算需求并得到了快速发展。
2016年AI芯片全球市场规模为23.88亿美元,有机构预计到2020年AI芯片全球市场规模将达到146.16亿美元(终端AI芯片的市场规模),发展空间巨大。另外,各国纷纷把AI芯片定为自己的战略发展方向。
与传统CPU不同的是,AI芯片具有大量的计算单元,能够适合大规模并行计算的需求。基于通用性与计算性能的不同,可以把AI芯片分为GPU、FPGA、ASIC三大类。深度神经网络的基本运算单元是“乘-加”(MAC)操作。每次MAC中存储器读写操作如图1所示。
图1:每个MAC的读写操作
在AI应用中,CPU与AI芯片的计算能力是由芯片所具备的MAC能力及如何发挥芯片的MAC能力两个因素决定。
CPU是通用芯片,CPU的大部分面积都被控制单元与缓存单元所占,只有少量的计算单元。另外,CPU的指令执行过程包括取指令、指令译码与指令执行三部分。只有在指令执行的时候,计算单元才能发挥作用。因而,CPU在发挥芯片的MAC能力方面亦比较一般。为了提高指令执行效率,CPU采用指令流水处理方式。
GPU有大量的计算单元,适合大规模并行计算。但是,GPU也是通用芯片,其指令执行过程也由取指令、指令译码与指令执行三部分组成。该特征是制约GPU计算能力的主要原因之一。
FPGA,即,现场可编程逻辑门阵列,是一种更接近I/O的高性能、低功耗芯片。FPGA是算法即电路,软硬合一的芯片。基于硬件描述语言,可以把算法逻辑直接编译为晶体管电路组合。由于FPGA的硬件电路是由算法定制的,其不需要取指令与指令译码过程,因而,FPGA能够充分发挥芯片的计算能力。另外,FPGA可以重复编程,因而具备一定的灵活性。
ASIC,即,专用集成电路。类似于FPGA,ASIC采用的也是算法即电路的逻辑,亦不需要取指令与指令执行过程。另外,ASIC是为了特定的需求而专门定制的芯片,因而,能够最大程度发挥芯片的计算能力。但是,不同于FPGA的可重复编程,ASIC的设计制造一旦完成,就无法再改变,其灵活性较差。
在评价一个芯片架构性好坏时,有多种指标可供参考。其中,能耗与峰值计算能力(芯片结构中每秒计算操作数的总和,用OPS表示)是两个重要的衡量指标。不同指标间会相互制衡,一个指标的增高可能是以牺牲其它指标为代价而获取的。因而,常采用归一化的指标单位能耗算力(OPS/W),即,能效,来衡量芯片计算性能。实质上看,上述的四种芯片是通用性与能效trade-off的结果。能效方面,ASIC&FPGA&GPU&CPU。通用性则反之。
对于AI芯片,从市场格局来看,NVIDIA是GPU行业的绝对龙头。对于FPGA,XILINX、ALTERA(现并入INTEL)、LATTICE、MICROSEMI四家占据全球99%的市场份额。其中,XILINX、ALTERA两家占据全球90%的市场份额。另外,FPGA四大巨头拥有6000多项行业专利,形成该行业极高的技术壁垒。对于ASIC芯片,目前还未形成巨头垄断的市场格局,但是对于不同垂直领域,其情况不同,我们将在下文中给出详细分析。
图2:AI芯片象限图
深度学习分为两个阶段:模型训练与智能推断,如图2所示。模型训练需要大量的训练样本,基于梯度下降法,模型优化收敛到局部最优点。深度学习的模型训练需要几小时到多天的迭代优化,因而,现阶段,模型训练都在云端完成(我们认为具备持续学习能力是智能终端未来发展的方向,因而这里并不认为训练一定只在云端完成)。模型训练好之后,则能够基于该模型与输入数据,计算得到输出,完成智能推断。相比于模型训练,推断的计算量要小很多,可以在云端与终端完成。
现阶段,由于终端设备的计算力普遍有限,模型训练与推断大都在云端服务器上完成。在云端模型训练中,NVIDIA的GPU占主导地位,多GPU并行架构是云端训练常用的基础架构方案。在云端识别中,基于功耗与运算速度的考量,单独基于GPU的方式并非最优方案,利用CPU、GPU、FPGA、ASIC各自的优势,采用异构计算(CPU+GPU+FPGA/ASIC)是目前主流方案。
在计算机视觉、语音识别等应用中,终端采集数据(特别是图像数据),然后上传到云端处理的云计算对网络带宽与数据中心存储都带来越来越大的挑战。另外,无人驾驶等应用对实时性与安全性要求极高。网络的时延与稳定性所带来的安全隐患是无人驾驶等应用所无法忍受的。在终端采集数据,并完成数据处理,提供智能终端推断的边缘计算(Edge computing),因其能够满足实时性、安全性的需求,且能节约带宽与存储,得到越来越多的关注。我们判断inference将越来越多的在终端设备上完成,即,智能将会下沉到终端设备,智能边缘计算将会崛起。
图3:全球AI终端芯片市场规模预测
实时性是选择在终端完成推断最主要的原因之一。但是,由于深度神经网络参数量巨大,推断过程需要完成大量的计算,其对终端硬件的计算力提出了很高的要求。另外,电池供电的终端设备对功耗也有极高的要求,且大多数的终端产品价格敏感。即,执行DNN推断的终端芯片对算力、功耗、价格都有严格的限制。研究用于DNN推断的AI-EI芯片是目前AI芯片行业最热的方向。现阶段,已有大量的初创公司,针对不同领域及应用,提出多种AI-EI芯片硬件设计架构,下文将详细给出AI-EI芯片的架构思路及发展现状。
二、AI-EI芯片及其架构
基于深度神经网络的广泛应用,科技巨头及初创公司都根据DNN的特性进行有针对性的硬件处理器研发。其中包括Google的TPU、寒武纪的DianNao系列、Eyeriss的NPU等AI芯片。本节将总结并给出这些AI-EI芯片如何在不降低准确率的前提下实现运算吞吐量提升,并降低能耗。
由前文可知,深度神经网络的基本运算为MAC操作,且MAC操作很容易被并行化。在DNN硬件设计中,常使用时间架构(temporal architecture)与空间架构(spatial architecture)两种高度并行化的计算架构,来获取高计算性能。
时间架构(Temporalarchitecture)
通用芯片CPU与GPU常采用时间架构,并使用单指令多数据流(SIMD)或者单指令多线程(SIMT)来提高并行化处理性能。时间架构基于中央控制器统一控制所有的ALU。这些ALU只能从层次存储器中取数据,而不能相互通信。
时间架构中,通常使用各种计算变换,特别是对卷积操作的计算变换,来减小计算复杂度,从而提升吞吐量,常用的方法包括:
Toeplitz矩阵方法:把卷积操作转换为矩阵乘操作
FFT方法:经过FFT变换,把卷积运算变成矩阵乘操作
Winograd方法:比较适合较小的滤波器的情况
空间架构(spatial architecture)
基于ASIC或者FPGA的AI-EI芯片常使用空间架构。相对于通用芯片,专用芯片应用在特定场景,其功能有限。简单且规则的硬件架构是降低设计成本的基础,亦是实现低成本专用芯片的先决条件。足够低的芯片成本才能对冲专用芯片功能的局限性。
空间架构采用数据流(Dataflow)处理方式。在空间架构中,ALU形成一条数据处理链,从而能够在ALU间直接地传送数据。该空间架构中,每个ALU都有自己的控制逻辑与本地存储(寄存器堆)。其中,有本地存储的ALU被定义为PE。
对于空间架构,硬件设计基于层次存储器中的低能耗内存,并增加数据重利用率(实质上,卷积是空间重用,这种重用可以获取空间的不变性),来减小能耗。另外,数据流(Dataflow)控制数据读、写及处理。总体上,空间架构基于层次存储器与数据流平衡I/O与运算问题,从而降低能耗并提升运算吞吐量。下文将在分析层次存储器与数据流的基础上,讨论不同的技术路线的AI-EI芯片。
访问内存所需时间要远远大于计算所需时间。由深度神经网络的推断部分运算可知,每个MAC都需要三次内存读与一次内存写操作。其中三次内存读操作分别为读取输入数据、权值数据与部分和数据(partial sum),一次内存写操作为更新部分和数据。层次存储器基于内部寄存器等存储单元来减小对外挂内存访问次数,降低I/O需求。层次存储器如图4所示,该层次存储器包括PE内部的寄存器(RF)、用于ALU间直接传输数据时存储数据的内存单元NoC及连接DRAM的全局缓存器Buffer。由图4可以看到,层次存储器中,不同类别的存储器读写操作所消耗的能量不同,这也是我们能够利用层次存储器及数据复用来降低能耗的原因。
图4:层次存储器及各存储器中数据迁移的能耗
Dataflow是一种没有复杂程序指令控制且由操作数,即,数据或者中间结果,激活子计算单元,来实现并行计算的一种计算方式。图5总结出了Dataflow的架构逻辑。
图5:数据流架构——来源Shaaban教授的课程
在深度学习的推断中,有大量的计算需求。但是,这些计算是分层顺序执行的。因而,控制流程相对简单、清晰。可以看出,Dataflow处理方式与基于深度神经网络推断部分的计算需求非常吻合。
数据流能够决定哪些数据读入到哪层存储器以及这些数据什么时候被处理。另外,在DNN推断中,没有随机性。因而,可以从最优能耗的角度,设计一个基于Dataflow的固定架构的AI-EI芯片。目前,大多数用于深度学习推断的AI-EI芯片都采用Dataflow。
层次存储器中,存储量大的存储器读写操作所消耗的能量要比小存储的存储器大很多。因而,一旦一块数据从大存储器搬移到小存储器后,要尽可能最大程度复用(reuse)该数据块来最小化能耗。但是低功耗存储器的存储空间有限。如何最大化复用率是设计基于Dataflow加速器时最关注的先前条件。即,通过最大化数据复用率来降低I/O要求,减小数据处理能耗,从而提升吞吐量并降低总体能耗。常见的DNN数据流类型包括:权值固定数据流、输出固定数据流、No local reuse(NLR)及行固定数据流。
权值固定数据流: 从DRAM中读出权值数据,放在PE的RF中并保持不变,之后把输入数据广播(broadcast)到每个PE,最后求取PE阵列的部分和(partialsum)。该处理方式通过最大化从PE的RF中读取权值数据次数,并最小化直接从DRAM中读取权值次数,实现最大化卷积与滤波器对权值的复用率,来减小能耗。NeuFlow即为基于该种数据处理方式的AI-EI芯片。
输出固定(OS)数据流: 通过在PE阵列中stream输入数据,然后把权值数据广播到PE阵列,保持 RF中的部分和的累加不变,从而最小化读写部分和的能耗。寒武纪的ShiDianNao是基于输出固定的AI-EI芯片。另外,根据处理目标的不同,可以把该种数据流分为以卷积层为处理目标的OS_A与以全连接层为处理目标的OS_C,OS_B是介于OS_A与OS_C间的一种OS数据流。
NLR数据流: PE阵列的RF中并不存储任何固定数据,相反,该情况下,所有数据的读写操作都是在全局buffer中完成。寒武纪的DianNao与DaNiaoNao是基于该数据处理方式的AI-EI芯片。
行固定数据流: 最大化所有数据复用率并尽可能的使得所有数据的读写操作都在RF中完成,减小对全局buffer的读写操作,来减小功耗。每个PE能够完成1D的卷积运算,多个PE能够完成2D的卷积运算。在二维的PE阵列中,水平轴上的PE单元上,每一行的权值数据被复用,对角线上的PE单元上,每一行的输入数据被复用,垂直轴上的多个PE单元上,每一行的部分和数据被复用,即,行固定的数据流能够最大化所有数据的复用率,从而能够全局最优化功耗。Eyeriss的NPU是基于行固定的AI-EI芯片。
三、AI-EI芯片玩家
本节首先总结三家极具代表性的研发DNN加速器(Google、Wave computing、Graphcore是平台化的计算平台,因而,这里没把他们叫做AI-EI芯片厂家)的公司,后文中结合应用场景总结AI-EI芯片创业公司,其中部分公司的芯片也可以做训练,且不一定应用在终端场景,这里基于行为考虑,把他们称为AI-EI芯片公司。
Google TPU
在2015年就开始部署ASIC张量处理器TPU。TPU采用脉动阵列(systolic array)技术,通过矩阵单元的使用,减小统一缓冲区的读写来降低能耗,即脉动运行。脉动阵列不是严格意义的Dataflow,但也是数据流驱动的设计方式。该技术早在1982年就被提出,但是受限于当时的工艺水平及应用,该技术在当时并没有引起太多关注。脉动阵列在TPU上的应用,让该技术回归大众视野,并得到了极大的关注。
Google在TPU上使用该技术的逻辑在于脉动阵列简单、规则且能够平衡运算与I/O通信。TPU中基本计算单元是功能单一的处理单元PE,每个PE需要先从存储中读取数据,进行处理,然后把处理后的结果再写入到存储中。TPU脉动阵列中的PE与前文中其他DNN加速器的PE基本一样,能够实现MAC操作,有存储能力有限的RF。由前文可知,对数据读写的速度要远远小于数据处理的速度。因而,访问内存的速度决定了处理器的处理能力。TPU的脉动阵列采用数据复用及数据在阵列中的脉动运行的策略来减小访问存储器次数,从而提高TPU的吞吐量。
TPU在实现卷积等运算时,要先调整好数据的形式(即对原始矩阵做好调整),之后才能完成相应的计算。因而,TPU的灵活性一般,只能处理特定的运算,这也是其它基于PE阵列Dataflow DNN加速器共有的问题。但是脉动阵列特别适合卷积运算,TPU有多种实现卷积运算的方式,其中包括:
权值存储在PE中保持不变,广播输入数据到各个PE,部分和的结果在PE阵列中脉动运行
部分和的结果存储在PE中保持不变,广播输入数据到各个PE,权值在PE阵列中脉动运行
部分和的结果存储在PE中保持不变,输入数据与权值在PE阵列中按相反方向脉动运行
部分和的结果存储在PE中保持不变,输入数据与权值在PE阵列中按相同方向但不同速度脉动运行
权值存储在PE中保持不变,输入数据与部分和的结果在PE阵列中按相反方向脉动运行
权值存储在PE中保持不变,输入数据与部分和的结果在PE阵列中按相同方向但不同速度脉动运行
Wave computing
基于Coarse GrainReconfigurable Array (CGRA) 阵列,实现数据流计算。另外,Wave的DNN加速器是clockless,其基于握手信号来实现模块间的同步。因而,不需要时钟树,从而能够减小芯片面积并降低功耗。
打造专门针对graph计算的智能处理器IPU。Graphcore在芯片设计上做出了很大的改变。相比于CPU以scalar为基础表示,GPU以矢量为基础表示,Graphcore的IPU是为了high-dimensional graph workload而设计的。这种表示既适用于神经网络,也适用于贝叶斯网络和马尔科夫场,包括未来可能出现的新的模型和算法。该IPU采用同构多核架构,有k级的独立处理器。另外,该芯片使用大量片上SRAM,不直接连接DRAM。该芯片能够直接做卷积运算,而不需要把转换成矩阵乘法之后使用MAC操作完成。该IPU不仅能够支持推断,也能支持训练。
商业应用是AI的关键因素之一,AI只有解决了实际的问题才具有价值,下文,我们从终端不同的应用,探讨AI-EI芯片。不同的加速器在各个子行业都有应用布局,我们从主要应用领域出发,给出公司产品、最新产品性能及融资情况的终结。
AI-EI芯片+自动驾驶
在汽车行业,安全性是最重要的问题。高速驾驶情况下,实时性是保证安全性的首要前提。由于网络终端机延时的问题,云端计算无法保证实时性。车载终端计算平台是自动驾驶计算发展的未来。另外,随着电动化的发展趋势,对于汽车行业,低功耗变的越来越重要。天然能够满足实时性与低功耗的ASIC芯片将是车载计算平台未来发展趋势。目前地平线机器人与Mobileye是OEM与Tier1的主要合作者。
AI-EI芯片+安防、无人机
对于如何解决“虐童”问题,我们认为能够“看得懂”的AI安防视频监控是可行方案之一。相比于传统视频监控,AI+视频监控,最主要的变化是把被动监控变为主动分析与预警,因而,解决了需要人工处理海量监控数据的问题(也绕开了硬盘关键时刻掉链子问题)。安防、无人机等终端设备对算力及成本有很高的要求。随着图像识别与硬件技术的发展,在终端完成智能安防的条件日益成熟。安防行业龙头海康威视、无人机龙头大疆已经在智能摄像头上使用了Movidious的Myriad系列芯片。
AI-EI芯片+消费电子
搭载麒麟970芯片的华为mate10手机与同样嵌入AI芯片的iPhoneX带领手机进入智能时代。另外,亚马逊的Echo引爆了智能家居市场。对于包括手机、家居电子产品在内的消费电子行业,实现智能的前提要解决功耗、安全隐私等问题。据市场调研表明,搭载ASIC芯片的智能家电、智能手机、AR/VR设备等智能消费电子已经处在爆发的前夜。
随着AI应用的推广,越来越多的公司加入AI-EI芯片行业,其中,既包括Bitmain这样的比特币芯片厂商,也包括从GoogleTPU团队出来的创业公司Groq,还有技术路线极具前瞻性的Vathys。由于这些Startups都还处于非常早期阶段,具体应用方向还未公布,因而放在“其他”中。另外,我们判断终端AI芯片的参与者还会增加,整个终端智能硬件行业还处在快速上升期。
四、AI-EI芯片发展趋势
上文介绍的AI-EI芯片是在优化硬件架构基础上,实现低功耗、高吞吐量。现有研究中有采用Processing in Memory(PIM)的方式,把处理直接放在存储单元的位置,降低整个系统的复杂度,减少不必要的数据搬移,从而优化功耗和硬件成本。同时,这也需要在电路(模拟信号)的层面重新设计存储器。初创公司Mythic即采用PIM技术来设计AI芯片。另外,通过研究具备高带宽和低功耗特性的存储器来解决I/O与运算不平衡的问题也是当前的研究热点。
类脑芯片是处理Spiking neural network (SNN)而设计的一种AI芯片。IBM的TrueNorth、高通的Zeroth及国内的Westwell是类脑芯片的代表公司。类脑芯片能够实现极低的功耗。但是在图像处理方面,SNN并没有表现的比CNN好,且类脑芯片现在处在研究阶段,离商业应用还有较远的距离。
2017年芯片行业的融资额是2015年的3倍。巨头公司与资本都在积极布局AI芯片,特别是在智能边缘计算有技术积累的公司。我们无法预测未来哪家公司能够最终胜出。
但是,一家AI芯片公司要想持续发展并壮大,需要具备包括硬件及软件生态的全AI服务流程能力。从现阶段的投资动向可以看出,创业公司要想获取资本青睐,需要在硬件设计架构上有足够吸引人的变动。另外,性能指标与技术路线可以靠讲,只要合理既有可能,但是在未来1到2年的时间内再拿不出产品是很难继续讲下去的。
5G时代的智能边缘计算AI-EC平台
from:https://www.leiphone.com/news/201710/vkVfytw8w0p4UE8b.html
2017年9月初华为透露:首款搭载AI芯片的商务手机将于10月发布并提出:Mobile AI=On_Device AI + Cloud AI。无独有偶,一周后苹果公司也发布了搭载A11可以人脸识别的史上最贵手机。那么On_Device AI将不可避免吗?本文作者提出了另外一种选项供参考:Mobile AI=5G_Device + AI-EC。
所谓的智能边缘计算(AI over Edge Computing, 以下简称AI-EC)是指在5G边缘(可理解在基站端)提供各类AI推理算法资源和相应的可编程AI计算资源的公共平台。其中的算法资源,主要以客观世界目标的视觉识别,音频识别以及自然语言处理为代表的通用类的AI推理算法软件。而另一个可编程AI计算资源是由以GPU及Tensor RT为代表的软硬件服务器支撑平台,用以承载和加速前者AI算法的推理计算,也可承载在线弱监督学习的训练或其他GPU应用。这种AI-EC平台所提供的AI推理服务如同在线函数库调用一样,你给它视频或图片,它返给你识别结果;你给他中文语音,它给你翻译成目标语言。今后亿万个物联网终端,智能穿戴等5G终端不必非得安装智能芯片及相关软件同样可以拥有智能,因为通用的AI推理功能已从终端剥离并转移到AI-MC平台上。(说白了就是智能产业将被纵向分割:会做终端的专做终端,懂算法的专做算法,5G将成为产业应用上下游的总线纽带)
一.AI-EC的架构
二.AI-EC的功能
深度学习的推理服务。雾智能终端将视频,音频,语言等上传至AI-EC 平台,由其平台上相关已训练好的推理模块进行推理,然后将结果反馈给雾智能终端。
高性能计算池服务。很多对GPU依赖的应用可以不受时间、空间及移动速度的限制。例如现场指纹推理,哈希算法(对加解密和区块链的支撑),快速傅立叶变换,蒙特卡罗等等。
“串流”云游戏服务。5G时代的云游戏市场将会进一步增大,玩家不必拥有独立显卡,也可以通过“串流”黑科技来感受类似效果的云游戏。AI-EC的云游戏模块可以根据玩家的操控将游戏效果渲染成视频流下推给玩家的5G终端,玩家不受地点限制可以在高铁地铁上。例如GeForce
Now云游戏,其官方建议20Mbps则可实现720P画质、60fps帧速;除此之外,网络时延需小于60ms。
视频业务审核服务。5G时代手机户外现场直播重大活动或事件将成为可能。而直播视频中是否有不合法的内容(如暴力,色情,极端宗教及敏感议题等)必须借助AI来实施审核并采取相应措施。
VR等实时渲染服务。随着渲染需求的不断加大以及VR/AR等应用的日益普及,坐在飞速行驶的高铁上也可以感受VR,可以即时渲染出个性化产品设计效果,装修设计效果等,影视短片的后期效果等。例如可以即时渲染出女士本人穿上网购服装的效果。
三. AI-EC的特点
a. 网络时延优势:边缘位置优势保证了时间敏感的实时类应用的AI推理时延要求。
b. 网络分布优势:AI-EC让广泛分布的推理申请在末端就得到结果,既减少了网络流量,又降低了云中心集中推理的计算压力。例如上万个监控视频的推理需求,动态应急布设监控及无人机监控等。
c. 智能终端减负:物联网、智能穿戴等终端的体积,重量,功耗,成本以及价格都将因此而降低,同时也降低了终端的研发门槛,有利于5G终端的广泛普及。
d.产业布局灵活:人工智能的各种算法发展日新月异,组合千变万化,研发的人员及硬件成本越来越高,这些将由AI-EC营运商解决。AI应用产业被纵向分解成算法服务商和终端供应商。
e. 非商业属性:AI-EC平台一般将由国有控股的电信运营商来承建,其公共属性有利于将人工智能服务作为像电力、天然气和通讯网络一样的市政设施供应给千家万户。有利于政府、教育、医疗,军工等公共机构充分利用AI-EC平台上的算法资源和计算资源,有利于相关部门对人工智能产业发展进行规划,引导,管理及法律法规制定等,有利于将5G与AI-EC整体打包像高铁一样输出给其它国家。
人脸识别鉴权技术:目前我国公安部相关研究所已立项“多维身份可信认证系统”,当海关、机场,车站,酒店,银行以及特殊单位等机构需要鉴权时,应有统筹法律法规约束。
医学影像辅助诊疗:同样应由国家相关部门在大数据标注与训练,隐私保护,相关识别技术的商业化与非商业化推广及医院相关区域的AI-EC覆盖等,应有统筹法律法规约束。
其它公共事业的AI部署:如AI教学、AI职业培训、科研院所的公用计算资源部署、AI市政公共设施、智能交通管理、AI家庭设施等部署,管理,法律法规约束等。
四.AI-EC带来的选择
雾智能终端与硬智能终端的选择:前者适合在网络覆盖良好的城市区域内使用通用类的、复杂度高的、变化快的、对功耗和成本要求比较苛刻的终端AI智能应用;后者允许在网络覆盖不确定的乡村,山区,荒漠,海上等区域,使用AI需求相对固定的、变化少的以及对时延要求极端苛刻的AI智能应用。
AI-EC雾端还是商业云端的选择:对时延要求高的,集中推理压力大的,业务敏感或不适合在商业云使用的应用可选择前者。
第四次(人工智能)产业革命的春风已经扑面而来,它开始渐渐地冲击着各个传统行业甚至是人类文明。东西方的主要高科技巨头都在AI计算资源和AI人才资源争夺上以及AI产业事实标准的制定上豪赌般地投入,无疑他们是有远见的。作为经济大国的中国在4G时代已通过网购,手机支付,共享单车等业务崭露头角,那么在5G时代是否可以从顶层设计来与时俱进,通过AI-EC来推动人工智能、物联网、智能穿戴等终端在各行各业的普及,从而提高效率或解决原来解决不了的问题,帮助中国早日成为科技强国并引领人类在AI领域的发展!
本文仅代表个人观点,意在抛砖引玉。作者才疏学浅,之所以愿意献丑撰写本文是因作者认为:人工智能的时代更需要跨行业交流及脑力激荡的,如能引发其它相关行业人士的思考,则达到了本文的目的。
本文转自张昺华-sky博客园博客,原文链接:
http://www.cnblogs.com/bonelee/p/8310809.html
,如需转载请自行联系原作者
用云栖社区APP,舒服~
【云栖快讯】云栖社区技术交流群汇总,阿里巴巴技术专家及云栖社区专家等你加入互动,老铁,了解一下?&&
文章4505篇
GPU云服务器是基于GPU应用的计算服务,多适用于视频解码,图形渲染,深度学习,科学计算等应...
是基于语音识别、语音合成、自然语言理解等技术,为企业在多种实际应用场景下,赋予产品“能听、会...
阿里云机器学习是基于阿里云分布式计算引擎的一款机器学习算法平台。用户通过拖拉拽的方式可视化的...
为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效...
阿里中间件云大使}

我要回帖

更多关于 js 照片旋转算法 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信