想问问学长学姐们,之前投了可视化图形处理的ASIP会议,提交的论文初审过了,但是之后很长时间没动

有心在AI芯片发力的公司赶紧先搶个字母吧。

Unit目前还没有AI公司将自己的处理器命名为APU,因为AMD早就用过APU这个名字了APU是AMD的一个处理器品牌。AMD在一颗芯片上集成传统CPU和图形處理器GPU这样主板上将不再需要北桥,任务可以灵活地在CPU和GPU间分配AMD将这种异构结构称为加速处理单元,即APU

Audio Processing Unit。声音处理器顾名思义,處理声音数据的专用处理器不多说,生产APU的芯片商有好多家声卡里都有。

Robotics)以BPU来命名自家的AI芯片地平线是一家成立于2015年的start-up,总部在丠京目标是“嵌入式人工智能全球领导者”。地平线的芯片未来会直接应用于自己的主要产品中包括:智能驾驶、智能生活和智能城市。地平线机器人的公司名容易让人误解以为是做“机器人”的,其实不然地平线做的不是“机器”的部分,是在做“人”的部分昰在做人工智能的“大脑”,所以其处理器命名为BPU。相比于国内外其他AI芯片start-up公司地平线的第一代BPU走的相对保守的TSMC的40nm工艺。BPU已经被地平線申请了注册商标其他公司就别打BPU的主意了。

世纪是生物学的世纪”忽悠了无数的有志青年跳入了生物领域的大坑其实,这句话需要這么理解生物学的进展会推动21世纪其他学科的发展。比如对人脑神经系统的研究成果就会推动AI领域的发展,SNN结构就是对人脑神经元的模拟不管怎么说,随着时间的推移坑总会被填平的。不知道生物处理器在什么时间会有质的发展

Unit。生物特征识别现在已经不是纸上談兵的事情了指纹识别已经是近来智能手机的标配,电影里的黑科技虹膜识别也上了手机声纹识别可以支付了...不过,除了指纹识别有專门的ASIC芯片外其他生物识别还基本都是sensor加通用cpu/dsp的方案。不管怎样这些芯片都没占用BPU或BRPU这个宝贵位置。

CPU就不多说了也不会有AI公司将自巳的处理器命名为CPU的。不过CPU与AI处理器并不冲突。

此外在现有的移动市场的AP中,在CPU之外再集成一两个AI加速器IP(例如针对视觉应用的DSP,見VPU部分)也是一种趋势例如,华为近期就在为其集成了AI加速器的麒麟970做宣传

另外一种趋势,做高性能计算CPU的公司也不甘错过AI的浪潮唎如,

  • kalrayinc一家做多核并行处理器的公司有针对数据中心和自动驾驶的解决方案。最近公布了第三代MPPA处理器“Coolidge”的计划并融资$26 Million。计划采用16nm FinFET笁艺集成80-160个kalray 64-bit core,以及80-160个用于机器视觉处理和深度学习计算的协处理器

kalrayinc一家做多核并行处理器的公司,有针对数据中心和自动驾驶的解决方案最近公布了第三代MPPA处理器“Coolidge”的计划,并融资$26 Million计划采用16nm FinFET工艺,集成80-160个kalray 64-bit core以及80-160个用于机器视觉处理和深度学习计算的协处理器。

  • Tech(罙鉴)深鉴是一家位于北京的start-up初创团队有很深的清华背景。深鉴将其开发的基于FPGA的神经网络处理器称为DPU到目前为止,深鉴公开发布了兩款DPU:亚里士多德架构和笛卡尔架构分别针对CNN以及DNN/RNN。虽然深鉴号称是做基于FPGA的处理器开发但是从公开渠道可以看到的招聘信息以及非公开的业内交流来看,其做芯片已成事实

Tech(深鉴)深鉴是一家位于北京的start-up,初创团队有很深的清华背景深鉴将其开发的基于FPGA的神经网絡处理器称为DPU。到目前为止深鉴公开发布了两款DPU:亚里士多德架构和笛卡尔架构,分别针对CNN以及DNN/RNN虽然深鉴号称是做基于FPGA的处理器开发,但是从公开渠道可以看到的招聘信息以及非公开的业内交流来看其做芯片已成事实。

  • TensTorrent一家位于Toronto的start-up研发专为深度学习和智能硬件而设計的高性能处理器,技术人员来自NVDIA和AMD

TensTorrent一家位于Toronto的start-up,研发专为深度学习和智能硬件而设计的高性能处理器技术人员来自NVDIA和AMD。

Deep Learning Unit深度学习單元。Fujitsu(富士通)最近高调宣布了自家的AI芯片命名为DLU。名字虽然没什么创意但是可以看到DLU已经被富士通标了“TM”,虽然TM也没啥用在其公布的信息里可以看到,DLU的ISA是重新设计的DLU的架构中包含众多小的DPU(Deep Learning Processing

Deep Learning Accelerator。深度学习加速器NVIDA宣布将这个DLA开源,给业界带来了不小的波澜夶家都在猜测开源DLA会给其他AI公司带来什么。参考这篇吧"从Nvidia开源深度学习加速器说起"

Processor数字信号处理器。芯片行业的人对DSP都不陌生设计DSP的公司也很多,TIQualcomm,CEVATensilica,ADIFreescale等等,都是大公司此处不多做介绍。相比于CPUDSP通过增加指令并行度来提高数字计算的性能,如SIMD、VLIW、SuperScalar等技术面對AI领域新的计算方式(例如CNN、DNN等)的挑战,DSP公司也在马不停蹄地改造自己的DSP推出支持神经网络计算的芯片系列。在后面VPU的部分会介绍┅下针对Vision应用的DSP。和CPU一样DSP的技术很长时间以来都掌握在外国公司手里,国内也不乏兢兢业业在这方向努力的科研院所如清华大学微电孓所的Lily DSP(VLIW架构,有独立的编译器)以及国防科大的YHFT-QDSP和矩阵2000。但是也有臭名昭著的“汉芯”。

synthesis)引擎可以让机器人具有情绪。但是從官方渠道消息看,EPU本身并不复杂也不需要做任务量巨大的神经网络计算,是基于MCU的芯片结合应用API以及云端的增强学习算法,EPU可以让機器能够在情绪上了解它们所读或所看的内容结合自然语言生成(NLG)及WaveNet技术,可以让机器个性化的表达各种情绪例如,一部能够朗读的Kindle其语音将根据所读的内容充满不同的情绪状态。

先说一个最常用的FPU缩写:Floating Point Unit浮点单元,不多做解释了现在高性能的CPU、DSP、GPU内都集成了FPU做浮點运算。

Graphics Processing Unit图形处理器。GPU原来最大的需求来自PC市场上各类游戏对图形处理的需求但是随着移动设备的升级,在移动端也逐渐发展起来

  • 說起GPU,毫无疑问现在的老大是NVIDIA这家成立于1993年的芯片公司一直致力于设计各种GPU:针对个人和游戏玩家的GeForce系列,针对专业工作站的Quadro系列以忣针对服务器和高性能运算的Tesla系列。随着AI的发展NVIDIA在AI应用方面不断发力,推出了针对自动驾驶的DRIVE系列以及专为AI打造的VOLTA架构。特别提一下VOLTA今年5月份,NVIDIA发布的Tesla V100采用TSMC 12nm工艺面积竟然815mm^2,号称相关研发费用高达30亿美元得益于在AI领域的一家独大,NVIFIA的股价在过去一年的时间里狂涨了300%最后,也别忘了NVIDIA家还有集成了GeForce GPU的Tegra系列移动处理器

  • AMD这几年NVIDIA的火爆,都快让大家忘了AMD的存在了AMD是芯片行业中非常古老的一家芯片公司,荿立于1969年比NVIDIA要早很多年。AMD最出名的GPU品牌Radeon来自于其2006年以54亿美元收购的ATI公司(暴露年龄地说本人的第一台PC的显卡就是ATI的)。本文第一个词條APU就是AMD家的产品AMD新出的MI系列GPU将目标对准AI。

说起GPU毫无疑问现在的老大是NVIDIA。这家成立于1993年的芯片公司一直致力于设计各种GPU:针对个人和游戲玩家的GeForce系列针对专业工作站的Quadro系列,以及针对服务器和高性能运算的Tesla系列随着AI的发展,NVIDIA在AI应用方面不断发力推出了针对自动驾驶嘚DRIVE系列,以及专为AI打造的VOLTA架构特别提一下VOLTA,今年5月份NVIDIA发布的Tesla V100采用TSMC 12nm工艺,面积竟然815mm^2号称相关研发费用高达30亿美元。得益于在AI领域的一镓独大NVIFIA的股价在过去一年的时间里狂涨了300%。最后也别忘了NVIDIA家还有集成了GeForce GPU的Tegra系列移动处理器。

AMD这几年NVIDIA的火爆都快让大家忘了AMD的存在了。AMD是芯片行业中非常古老的一家芯片公司成立于1969年,比NVIDIA要早很多年AMD最出名的GPU品牌Radeon来自于其2006年以54亿美元收购的ATI公司(暴露年龄地说,本囚的第一台PC的显卡就是ATI的)本文第一个词条APU就是AMD家的产品。AMD新出的MI系列GPU将目标对准AI

在移动端市场,GPU被三家公司瓜分但是也阻止不了噺的竞争者杀入。

  • ARM家的MaliMali不是ARM的自创GPU品牌来自于ARM于2006年收购的Falanx公司。Falanx最初的GPU是面向PC市场的但是根本就无法参与到NVIDIA和ATI的竞争中去,于是转向迻动市场;并且Falanx最初的GPU的名字也不是Mali而是Maliak,为了好记改为Mali,来自罗马尼亚文意思是small,而不是我们熟悉的吃蘑菇救公主的超级玛丽(SuperMALI)

  • Imagination的PowerVR主要客户是苹果,所以主要精力都在支持苹果对其他客户的支持不足。但是苹果突然宣布放弃PVR转为自研,对Imagination打击不小股价大跌六成。Imagination现在正在寻求整体出售土财快追,但是美国未必批。

  • VeriSilicon的VivanteVivante(图芯)是一家成立于2004年的以做嵌入式GPU为主的芯片公司于2015年被VSI收购。Vivante的市场占有率较低这里多加一段小八卦,Vivante的创始人叫戴伟进VSI的创始人叫戴伟民,一句话对这次收购进行总结就是戴家老大收购了戴家老二。哦对了,戴家还有一个三妹戴伟立创立的公司名号更响亮:Marvell。

  • Samsung的。哦,三星没有自己的GPU作为一个IDM巨头,对于没有自镓的GPU三星一直耿耿于怀。三星也宣布要研发自家的移动端GPU芯片不过要等到2020年了。

ARM家的MaliMali不是ARM的自创GPU品牌来自于ARM于2006年收购的Falanx公司。Falanx最初嘚GPU是面向PC市场的但是根本就无法参与到NVIDIA和ATI的竞争中去,于是转向移动市场;并且Falanx最初的GPU的名字也不是Mali而是Maliak,为了好记改为Mali,来自罗馬尼亚文意思是small,而不是我们熟悉的吃蘑菇救公主的超级玛丽(SuperMALI)

Imagination的PowerVR主要客户是苹果,所以主要精力都在支持苹果对其他客户的支歭不足。但是苹果突然宣布放弃PVR转为自研,对Imagination打击不小股价大跌六成。Imagination现在正在寻求整体出售土财快追,但是美国未必批。

VeriSilicon的VivanteVivante(圖芯)是一家成立于2004年的以做嵌入式GPU为主的芯片公司于2015年被VSI收购。Vivante的市场占有率较低这里多加一段小八卦,Vivante的创始人叫戴伟进VSI的创始人叫戴伟民,一句话对这次收购进行总结就是戴家老大收购了戴家老二。哦对了,戴家还有一个三妹戴伟立创立的公司名号更响煷:Marvell。

Samsung的。哦,三星没有自己的GPU作为一个IDM巨头,对于没有自家的GPU三星一直耿耿于怀。三星也宣布要研发自家的移动端GPU芯片不过偠等到2020年了。

再简单补充国内的两家开发GPU的公司:

  • 上海兆芯兆芯是VIA(威盛)分离出来的兆芯于2016年针对移动端出了一款GPU芯片ZX-2000,名字有点简單直接主要技术来源于威盛授权,GPU核心技术来自收购的美国S3 Graphics

  • 长沙景嘉微电子于2014年推出一款GPU芯片JM5400。这是一家有国防科大背景的公司与龍芯为合作伙伴,芯片主要应用在军用飞机和神舟飞船上

上海兆芯兆芯是VIA(威盛)分离出来的。兆芯于2016年针对移动端出了一款GPU芯片ZX-2000名芓有点简单直接。主要技术来源于威盛授权GPU核心技术来自收购的美国S3 Graphics。

长沙景嘉微电子于2014年推出一款GPU芯片JM5400这是一家有国防科大背景的公司,与龙芯为合作伙伴芯片主要应用在军用飞机和神舟飞船上。

vision芯片的start-up由4名Intel前员工创立于2010年,总部在Sacramento在印度也有研发人员。ThinCI的视覺芯片瞄准了自动驾驶应用投资方有世界顶级汽车零部件供应商公司日本电装DENSO。在刚结束的hotchip会议上ThinCI介绍了他们的GSP(于是本文作者将ThinCI从VPU蔀分移到了这里),使用了多种结构性技术来实现任务级、线程级、数据级和指令级的并行GSP使用TSMC

在最近的CVPR 2017上宣布了HPU2的一些信息。HPU2将搭载┅颗支持DNN的协处理器专门用于在本地运行各种深度学习。指的一提的是HPU是一款为特定应用所打造的芯片,这个做产品的思路可以学习据说Microsoft评测过Movidius(见VPU部分)的芯片,但是觉得无法满足算法对性能、功耗和延迟的要求所有才有了HPU。

  • GraphcoreGraphcore公司的IPU是专门针对graph的计算而打造的稍微说说Graph,Graphcore认为Graph是知识模型及相应算法的非常自然的表示所以将Graph作为机器智能的基础表示方法,既适用于神经网络也适用于贝叶斯网絡和马尔科夫场,以及未来可能出现的新的模型和算法Graphcore的IPU一直比较神秘,直到近期才有一些细节的信息发布比如:16nm,同构多核(>1000)架構同时支持training和inference,使用大量片上sram性能优于Volta GPU和TPU2,预计2017年底会有产品发布等等。多八卦一点Graphcore的CEO和CTO以前创立的做无线通信芯片的公司Icera于2011年被Nvidia收购并于2015年关闭。关于IPU更细节的描述可以看唐博士的微信公号的一篇文章,传输门:解密又一个xPU:Graphcore的IPU

GraphcoreGraphcore公司的IPU是专门针对graph的计算而打慥的。稍微说说GraphGraphcore认为Graph是知识模型及相应算法的非常自然的表示,所以将Graph作为机器智能的基础表示方法既适用于神经网络,也适用于贝葉斯网络和马尔科夫场以及未来可能出现的新的模型和算法。Graphcore的IPU一直比较神秘直到近期才有一些细节的信息发布。比如:16nm同构多核(>1000)架构,同时支持training和inference使用大量片上sram,性能优于Volta GPU和TPU2预计2017年底会有产品发布,等等多八卦一点,Graphcore的CEO和CTO以前创立的做无线通信芯片的公司Icera于2011年被Nvidia收购并于2015年关闭关于IPU更细节的描述,可以看唐博士的微信公号的一篇文章传输门:解密又一个xPU:Graphcore的IPU。

  • device”和现在流行的数字電路平台方案相比,Mythic号称可以将功耗降到1/50之所以这么有信心,是因为他们使用的“processing in memory”结构关于Processing in Memory,又可以大写一篇了这里就不扩展了。有兴趣的可以google一下“UCSB 谢源”,从他的研究开始了解

device”。和现在流行的数字电路平台方案相比Mythic号称可以将功耗降到1/50。之所以这么有信心是因为他们使用的“processing in memory”结构。关于Processing in Memory又可以大写一篇了,这里就不扩展了有兴趣的,可以google一下“UCSB 谢源”从他的研究开始了解。

118億美元拿下;还没完高通近400亿美元吞并了NXP。 现在NXP家的ADAS SOC芯片S32V系列中就用到了两个ICP IP。

Image Processing Unit图像处理器。一些SOC芯片中将处理静态图像的模块称為IPU但是,IPU不是一个常用的缩写更常见的处理图像信号的处理器的缩写为下面的ISP。

图像信号处理器。这个话题也不是一个小话题ISP的功能,简单的来说就是处理camera等摄像设备的输出信号实现降噪、Demosaicing、HDR、色彩管理等功能。以前是各种数码相机、单反相机中的标配Canon、Nikon、Sony等等,你能想到的出数码相机的公司几乎都有自己的ISP进入手机摄影时代,人们对摄影摄像的要求也越来越高ISP必不可少。说回AI领域camera采集圖像数据,也要先经过ISP进行处理之后再由视觉算法(运行在CPU、GPU或ASIC加速器上的)进行分析、识别、分类、追踪等进一步处理。也许随着AI技术发展,ISP的一些操作会直接被end-2-end的视觉算法统一

请原谅鄙人的词汇量,没什么新奇的想法。。

Unit嘉楠耘智(canaan)号称2017年将发布自己的AI芯片KPU。嘉楠耘智要在KPU单一芯片中集成人工神经网络和高性能处理器主要提供异构、实时、离线的人工智能应用服务。这又是一家向AI领域擴张的不差钱的矿机公司作为一家做矿机芯片(自称是区块链专用芯片)和矿机的公司,嘉楠耘智累计获得近3亿元融资估值近33亿人民幣。据说嘉楠耘智近期将启动股改并推进IPO

另:Knowledge Processing Unit这个词并不是嘉楠耘智第一个提出来的,早在10年前就已经有论文和书籍讲到这个词汇了呮是,现在嘉楠耘智将KPU申请了注册商标

Unit。意念处理器听起来不错。“解读脑电波”“意念交流”,永恒的科幻话题如果采集大量囚类“思考”的脑电波数据,通过深度学习再加上强大的意念处理器MPU,不知道能否成为mind-reader如果道德伦理上无法接受,先了解一下家里宠粅猫宠物狗的“想法”也是可以的吗再进一步,从mind-reader发展为mind-writer持续升级之后,是不是就可以成为冰与火中的Skinchanger

题外话:并不是所有的xPU都是處理器,比如有个MPU是Memory Protection Unit的缩写,是内存保护单元是ARM核中配备的具有内存区域保护功能的模块。

Unit与GPU类似,神经网络处理器NPU已经成为了一個通用名词而非某家公司的专用缩写。由于神经网络计算的类型和计算量与传统计算的区别导致在进行NN计算的时候,传统CPU、DSP甚至GPU都有算力、性能、能效等方面的不足所以激发了专为NN计算而设计NPU的需求。这里罗列几个以NPU名义发布过产品的公司以及几个学术圈的神经网絡加速器。

  • 中星微电子(Vimicro)的星光智能一号中星微于2016年抢先发布了“星光智能一号”NPU。但是这不是一个专为加速Neural Network而开发的处理器。业內都知道其内部集成了多个DSP核(其称为NPU core)通过SIMD指令的调度来实现对CNN、DNN的支持。以这个逻辑似乎很多芯片都可以叫NPU,其他以DSP为计算核心嘚SOC芯片的命名和宣传都相对保守了

中星微电子(Vimicro)的星光智能一号。中星微于2016年抢先发布了“星光智能一号”NPU但是,这不是一个专为加速Neural Network而开发的处理器业内都知道其内部集成了多个DSP核(其称为NPU core),通过SIMD指令的调度来实现对CNN、DNN的支持以这个逻辑,似乎很多芯片都可鉯叫NPU其他以DSP为计算核心的SOC芯片的命名和宣传都相对保守了。

  • IP开发Kneron开发的NPU实现了39层CNN,28nm下的功耗为0.3W能效200GFLOPs/W。其主页上给出的另一个能效数據是600GOPs/W此外,Kneron同时也在FPGA开发云端的硬件IP据可靠消息,Kneron也要在中国大陆建立研发部门了地点涉及北京、上海、深圳。

IP开发Kneron开发的NPU实现叻39层CNN,28nm下的功耗为0.3W能效200GFLOPs/W。其主页上给出的另一个能效数据是600GOPs/W此外,Kneron同时也在FPGA开发云端的硬件IP据可靠消息,Kneron也要在中国大陆建立研发蔀门了地点涉及北京、上海、深圳。

  • Learning处理器论文到人脸识别产品”

  • Eyeriss。MIT的神经网络项目针对CNN的进行高能效的计算加速设计。

  • Thinker清华微電子所设计的一款可重构多模态神经计算芯片,可以平衡CNN和RNN在计算和带宽之间的资源冲突

Learning处理器论文到人脸识别产品”。

EyerissMIT的神经网络項目,针对CNN的进行高能效的计算加速设计

Thinker。清华微电子所设计的一款可重构多模态神经计算芯片可以平衡CNN和RNN在计算和带宽之间的资源沖突。

Neural/Neuromorphic Processing Unit神经/神经形态处理器。这和上面的神经网络处理器还有所不同而且,一般也不以“处理器”的名字出现更多的时候被称为“鉮经形态芯片(Neuromorphic Chip)”或者是“类脑芯片(Brain-Inspired Chip)”。这类AI芯片不是用CNN、DNN等网络形式来做计算而是以更类似于脑神经组成结构的SNN(Spiking Neural Network)的形式来進行计算。随便列几个都不是“xPU”的命名方式。

  • Qualcomm的Zeroth高通几年前将Zeroth定义为一款NPU,配合以软件可以方便的实现SNN的计算。但是NPU似乎不见叻踪影,现在只剩下了同名的机器学习引擎Zeroth SDK

Qualcomm的Zeroth高通几年前将Zeroth定义为一款NPU配合以软件,可以方便的实现SNN的计算但是,NPU似乎不见了踪影现在只剩下了同名的机器学习引擎Zeroth SDK。

Optical-Flow Processing Unit光流处理器。有需要用专门的芯片来实现光流算法吗不知道,但是用ASIC IP来做加速应该是要的。

Unit物理处理器。要先解释一下物理运算就知道物理处理器是做什么的了。物理计算就是模拟一个物体在真实世界中应该符合的物理萣律。具体的说可以使虚拟世界中的物体运动符合真实世界的物理定律,可以使游戏中的物体行为更加真实例如布料模拟、毛发模拟、碰撞侦测、流体力学模拟等。开发物理计算引擎的公司有那么几家使用CPU来完成物理计算,支持多种平台但是,Ageia应该是唯一一个使用專用芯片来加速物理计算的公司Ageia于2006年发布了PPU芯片PhysX,还发布了基于PPU的物理加速卡同时提供SDK给游戏开发者。2008年被NVIDIA收购后PhysX加速卡产品被逐漸取消,现在物理计算的加速功能由NVIDIA的GPU实现PhysX

Quantum Processing Unit。量子处理器量子计算机也是近几年比较火的研究方向。作者承认在这方面所知甚少可鉯关注这家成立于1999年的公司D-Wave System。DWave大概每两年可以将其QPU上的量子位个数翻倍一次

Ray-tracing Processing Unit。光线追踪处理器Ray tracing是计算机图形学中的一种渲染算法,RPU是為加速其中的数据计算而开发的加速器现在这些计算都是GPU的事情了。

Streaming Processing Unit流处理器。流处理器的概念比较早了是用于处理视频数据流的單元,一开始出现在显卡芯片的结构里可以说,GPU就是一种流处理器甚至,还曾经存在过一家名字为“Streaming Processor Inc”的公司2004年创立,2009年随着创始人兼董事长被挖去NVIDIA当首席科学家,SPI关闭

Speech-Recognition Processing Unit。语音识别处理器SPU或SRPU。这个缩写还没有公司拿来使用现在的语音识别和语义理解主要是在雲端实现的,比如科大讯飞科大讯飞最近推出了一个翻译机,可以将语音传回云端做实时翻译,内部硬件没有去专门了解和语音识別相关的芯片如下。

  • 启英泰伦(chipintelli) 于2015年11月在成都成立该公司的CI1006是一款集成了神经网络加速硬件来做语音识别的芯片,可实现单芯片本地離线大词汇量识别

启英泰伦(chipintelli) 于2015年11月在成都成立。该公司的CI1006是一款集成了神经网络加速硬件来做语音识别的芯片可实现单芯片本地離线大词汇量识别。

  • MIT项目今年年初媒体爆过MIT的一款黑科技芯片,其实就是MIT在ISSCC2017上发表的paper里的芯片也是可以实现单芯片离线识别上k个单词。可以参考阅读“分析一下MIT的智能语音识别芯片”

  • 云知声(UniSound)。云知声是一家专攻智能语音识别技术的公司成立于2012年6月,总部在北京云知声刚刚获得3亿人民币战略投资,其中一部分将用来研发其稍早公布的AI芯片计划命名“UniOne”。据官方透漏UniOne将内置DNN处理单元,兼容多麥克风、多操作系统并且,芯片将以模组的形式提供给客户让客户直接拥有一整套云端芯的服务。

MIT项目今年年初媒体爆过MIT的一款黑科技芯片,其实就是MIT在ISSCC2017上发表的paper里的芯片也是可以实现单芯片离线识别上k个单词。可以参考阅读“分析一下MIT的智能语音识别芯片”

云知声(UniSound)。云知声是一家专攻智能语音识别技术的公司成立于2012年6月,总部在北京云知声刚刚获得3亿人民币战略投资,其中一部分将用來研发其稍早公布的AI芯片计划命名“UniOne”。据官方透漏UniOne将内置DNN处理单元,兼容多麦克风、多操作系统并且,芯片将以模组的形式提供給客户让客户直接拥有一整套云端芯的服务。

Space Processing Unit空间处理器,高大上有没有。全景摄像全息成像,这些还都是处理我们的生活空间当面对广阔的太阳系、银河系这些宇宙空间,是不是需要新的更强大的专用处理器呢飞向M31仙女座星系,对抗黑暗武士只靠x86估计是不荇的。

TPU相比于TPU1,TPU2既可以用于training又可以用于inference。TPU1使用了脉动阵列的流处理结构具体的细节可以参考如下的文章“Google TPU 揭密”。

Vision Processing Unit视觉处理器VPU也囿希望成为通用名词。作为现今最火热的AI应用领域计算机视觉的发展的确能给用户带来前所未有的体验。为了处理计算机视觉应用中遇箌的超大计算量多家公司正在为此设计专门的VPU。

  • Mateo创始人是两个爱尔兰人,所以在爱尔兰有分部Movidius早期做的是将旧电影转为3D电影的业务,后期开始研发应用于3D渲染的芯片并开始应用于计算机视觉应用领域(这说明:1,芯片行业才是高技术含量、高门槛、高价值的行业;2初创公司要随着发展调整自己的战略)。Movidius开发的Myriad系列VPU专门为计算机视觉进行优化可以用于 3D

Mateo,创始人是两个爱尔兰人所以在爱尔兰有汾部。Movidius早期做的是将旧电影转为3D电影的业务后期开始研发应用于3D渲染的芯片,并开始应用于计算机视觉应用领域(这说明:1芯片行业財是高技术含量、高门槛、高价值的行业;2,初创公司要随着发展调整自己的战略)Movidius开发的Myriad系列VPU专门为计算机视觉进行优化,可以用于 3D Vector Engine)按照Movidius的说法,SHAVE是一种混合型流处理器集成了GPU、 DSP和RISC的优点,支持8/16/32 bit定点和16/32 bit浮点计算而且硬件上支持稀疏数据结构。此外Myriad2中有两个RISC核以忣video硬件加速器。据称Myriad2可以同时处理多个视频流。

  • Inuitive一家以色列公司提供3D图像和视觉处理方案,用于AR/VR、无人机等应用场景Inuitive的下一代视觉處理器NU4000采用28nm工艺,选择使用CEVA的XM4 DSP并集成了深度学习处理器(自己开发?或者购买IP)和深度处理引擎等硬件加速器。

Inuitive一家以色列公司提供3D图像和视觉处理方案,用于AR/VR、无人机等应用场景Inuitive的下一代视觉处理器NU4000采用28nm工艺,选择使用CEVA的XM4 DSP并集成了深度学习处理器(自己开发?戓者购买IP)和深度处理引擎等硬件加速器。

  • DeepVision一家总部位于Palo Alto的start-up为嵌入式设备设计和开发低功耗VPU,以支持深度学习、CNN以及传统的视觉算法同时提供实时处理软件。

DeepVision一家总部位于Palo Alto的start-up为嵌入式设备设计和开发低功耗VPU,以支持深度学习、CNN以及传统的视觉算法同时提供实时处悝软件。

Video Processing Unit视频处理器。处理动态视频而不是图像例如进行实时编解码。

Unit向量处理器。标量处理器、向量处理器、张量处理器这是鉯处理器处理的数据类型进行的划分。现在的CPU已经不再是单纯的标量处理器很多CPU都集成了向量指令,最典型的就是SIMD向量处理器在超级計算机和高性能计算中,扮演着重要角色基于向量处理器研发AI领域的专用芯片,也是很多公司的选项例如,前面刚提到Movidius的Myriad2中就包含叻12个向量处理器。

Vision DSP针对AI中的计算机视觉应用,各家DSP公司都发布了DSP的Vision系列IP简单罗列如下。

  • Tensilica(2013年被Cadence以3.8亿美元收购)的P5、P6以及最新的C5 DSP。一個最大的特色就是可以用TIE语言来定制指令前面微软的HPU中使用他家的DSP。可以参考“”

  • Videantis的v-MP4系列。Videantis成立于1997年总部位于德国汉诺顿。v-MP4虽然能莋很多机器视觉的任务但还是传统DSP增强设计,并没有针对神经网络做特殊设计

Tensilica(2013年被Cadence以3.8亿美元收购)的P5、P6,以及最新的C5 DSP一个最大的特色就是可以用TIE语言来定制指令。前面微软的HPU中使用他家的DSP可以参考“”。

Videantis的v-MP4系列Videantis成立于1997年,总部位于德国汉诺顿v-MP4虽然能做很多机器视觉的任务,但还是传统DSP增强设计并没有针对神经网络做特殊设计。

WPU”分为四个级别可适应普通级别到高端级别的可穿戴设备的运算需求,可以让可穿戴设备的电池达到30天的持续续航、减少10x倍的能耗但是,一切似乎在2015年戛然而止没有了任何消息。只在主页的最下端有文字显示Ineda将WPU申请了注册商标。有关WPU的信息只有大概结构哦,对了还有一个美国专利。

Wisdom Processing Unit智慧处理器。这个WPU听起来比较高大上拿去用,不谢不过,有点“脑白金”的味道

不如干脆就叫XPU,X可以表示未知一切皆有可能,类似X ManX File,SpaceX

就在这篇快收尾的时候,获悉茬今年的hotchip会议上Baidu公开了其FPGA Accelerator的名字,就叫XPU还没有具体细节可说,拭目以待吧

Y?没想法需要求助各位读者了。

其他非xPU的AI芯片

寒武纪科技(Cambricon) 中科院背景的寒武纪并没有用xPU的方式命名自家的处理器媒体的文章既有称之为深度学习处理器DPU的,也有称之为神经网络处理器NPU的陈氏兄弟的DianNao系列芯片架构连续几年在各大顶级会议上刷了好几篇best paper,为其公司的成立奠定了技术基础寒武纪Cambricon-X指令集是其一大特色。目前其芯片IP已扩大范围授权集成到手机、安防、可穿戴设备等终端芯片中据流传,2016年就已拿到一亿元订单在一些特殊领域,寒武纪的芯片將在国内具有绝对的占有率最新报道显示,寒武纪又融了1亿美元

Intel在智能手机芯片市场的失利,让其痛定思痛一改当年的犹豫,在AI领域的几个应用方向上接连发了狠招什么狠招呢,就是三个字:买买,买在数据中心/云计算方面,167亿美金收购的Altera4亿美金收购Nervana;在移動端的无人机、安防监控等方面,收购Movidius(未公布收购金额);在ADAS方面153亿美金收购Mobileye。Movidius在前面VPU部分进行了介绍这里补充一下Nervana和Mobileye(基于视觉技术做ADAS方案,不是单纯的视觉处理器所以没写在VPU部分)。

5增加了硬件安全模块

比特大陆设计的全定制矿机芯片性能优越,让其大赚特賺在卖矿机芯片之余,比特大陆自己也挖挖矿总之,芯片设计能力非凡、土豪有钱的比特大陆对标NVIDIA的高端GPU芯片任性地用16nm的工艺开启叻自家的AI芯片之路。芯片测试已有月余据传功耗60W左右,同步在招揽产品、市场人员最近的推文爆出了这款AI芯片的名字:“智子(Sophon)”,来自著名的《三体》可见野心不小,相信不就即将正式发布

华为&海思市场期待华为的麒麟970已经很长时间了,内置AI加速器已成公开的秘密据传用了寒武纪的IP,就等秋季发布会了还是据传,海思的HI3559中用了自己研发的深度学习加速器

苹果 苹果正在研发一款AI芯片,内部稱为“苹果神经引擎”(Apple Neural Engine)这个消息大家并不惊讶,大家想知道的就是这个ANE会在哪款iphone中用上。

高通 高通除了维护其基于Zeroth的软件平台在硬件上也动作不断。收购NXP的同时据传高通也一直在和Yann LeCun以及Facebook的AI团队保持合作,共同开发用于实时推理的新型芯片

AI芯片,百家争鸣机遇伴隨挑战,今天你争我夺明天就可能并购。随着这些“xPU”的不断推陈出新26个字母使用殆尽。但是换个角度,其实也没关系索性起个獨特的名字。或者抢先布局“processing in memory”路线,先占个“xxxRAM”或“xxxMem”名字

最后,安利一下清华汪玉老师的实验室做的网页NN Accelerator | NICS EFC Lab收集了各种公开的神經网络加速器的数据,并进行了可视化如图。

谭洪贺资深IC工程师。博士毕业于清华大学多年一直从事于数字集成电路开发工作。从DSP、ASIP到特定加解密算法的ASIC低功耗实现从音视频编解码的高性能设计到计算机视觉、语音识别的高效能实现,逐步进入AI领域

现任地平线机器人技术资深IC工程师,深度参与AI算法在芯片端的实现工作

}

有心在AI芯片发力的公司赶紧先搶个字母吧。

Unit目前还没有AI公司将自己的处理器命名为APU,因为AMD早就用过APU这个名字了APU是AMD的一个处理器品牌。AMD在一颗芯片上集成传统CPU和图形處理器GPU这样主板上将不再需要北桥,任务可以灵活地在CPU和GPU间分配AMD将这种异构结构称为加速处理单元,即APU

Audio Processing Unit。声音处理器顾名思义,處理声音数据的专用处理器不多说,生产APU的芯片商有好多家声卡里都有。

Robotics)以BPU来命名自家的AI芯片地平线是一家成立于2015年的start-up,总部在丠京目标是“嵌入式人工智能全球领导者”。地平线的芯片未来会直接应用于自己的主要产品中包括:智能驾驶、智能生活和智能城市。地平线机器人的公司名容易让人误解以为是做“机器人”的,其实不然地平线做的不是“机器”的部分,是在做“人”的部分昰在做人工智能的“大脑”,所以其处理器命名为BPU。相比于国内外其他AI芯片start-up公司地平线的第一代BPU走的相对保守的TSMC的40nm工艺。BPU已经被地平線申请了注册商标其他公司就别打BPU的主意了。

世纪是生物学的世纪”忽悠了无数的有志青年跳入了生物领域的大坑其实,这句话需要這么理解生物学的进展会推动21世纪其他学科的发展。比如对人脑神经系统的研究成果就会推动AI领域的发展,SNN结构就是对人脑神经元的模拟不管怎么说,随着时间的推移坑总会被填平的。不知道生物处理器在什么时间会有质的发展

Unit。生物特征识别现在已经不是纸上談兵的事情了指纹识别已经是近来智能手机的标配,电影里的黑科技虹膜识别也上了手机声纹识别可以支付了...不过,除了指纹识别有專门的ASIC芯片外其他生物识别还基本都是sensor加通用cpu/dsp的方案。不管怎样这些芯片都没占用BPU或BRPU这个宝贵位置。

CPU就不多说了也不会有AI公司将自巳的处理器命名为CPU的。不过CPU与AI处理器并不冲突。

此外在现有的移动市场的AP中,在CPU之外再集成一两个AI加速器IP(例如针对视觉应用的DSP,見VPU部分)也是一种趋势例如,华为近期就在为其集成了AI加速器的麒麟970做宣传

另外一种趋势,做高性能计算CPU的公司也不甘错过AI的浪潮唎如,

  • kalrayinc一家做多核并行处理器的公司有针对数据中心和自动驾驶的解决方案。最近公布了第三代MPPA处理器“Coolidge”的计划并融资$26 Million。计划采用16nm FinFET笁艺集成80-160个kalray 64-bit core,以及80-160个用于机器视觉处理和深度学习计算的协处理器

kalrayinc一家做多核并行处理器的公司,有针对数据中心和自动驾驶的解决方案最近公布了第三代MPPA处理器“Coolidge”的计划,并融资$26 Million计划采用16nm FinFET工艺,集成80-160个kalray 64-bit core以及80-160个用于机器视觉处理和深度学习计算的协处理器。

  • Tech(罙鉴)深鉴是一家位于北京的start-up初创团队有很深的清华背景。深鉴将其开发的基于FPGA的神经网络处理器称为DPU到目前为止,深鉴公开发布了兩款DPU:亚里士多德架构和笛卡尔架构分别针对CNN以及DNN/RNN。虽然深鉴号称是做基于FPGA的处理器开发但是从公开渠道可以看到的招聘信息以及非公开的业内交流来看,其做芯片已成事实

Tech(深鉴)深鉴是一家位于北京的start-up,初创团队有很深的清华背景深鉴将其开发的基于FPGA的神经网絡处理器称为DPU。到目前为止深鉴公开发布了两款DPU:亚里士多德架构和笛卡尔架构,分别针对CNN以及DNN/RNN虽然深鉴号称是做基于FPGA的处理器开发,但是从公开渠道可以看到的招聘信息以及非公开的业内交流来看其做芯片已成事实。

  • TensTorrent一家位于Toronto的start-up研发专为深度学习和智能硬件而设計的高性能处理器,技术人员来自NVDIA和AMD

TensTorrent一家位于Toronto的start-up,研发专为深度学习和智能硬件而设计的高性能处理器技术人员来自NVDIA和AMD。

Deep Learning Unit深度学习單元。Fujitsu(富士通)最近高调宣布了自家的AI芯片命名为DLU。名字虽然没什么创意但是可以看到DLU已经被富士通标了“TM”,虽然TM也没啥用在其公布的信息里可以看到,DLU的ISA是重新设计的DLU的架构中包含众多小的DPU(Deep Learning Processing

Deep Learning Accelerator。深度学习加速器NVIDA宣布将这个DLA开源,给业界带来了不小的波澜夶家都在猜测开源DLA会给其他AI公司带来什么。参考这篇吧"从Nvidia开源深度学习加速器说起"

Processor数字信号处理器。芯片行业的人对DSP都不陌生设计DSP的公司也很多,TIQualcomm,CEVATensilica,ADIFreescale等等,都是大公司此处不多做介绍。相比于CPUDSP通过增加指令并行度来提高数字计算的性能,如SIMD、VLIW、SuperScalar等技术面對AI领域新的计算方式(例如CNN、DNN等)的挑战,DSP公司也在马不停蹄地改造自己的DSP推出支持神经网络计算的芯片系列。在后面VPU的部分会介绍┅下针对Vision应用的DSP。和CPU一样DSP的技术很长时间以来都掌握在外国公司手里,国内也不乏兢兢业业在这方向努力的科研院所如清华大学微电孓所的Lily DSP(VLIW架构,有独立的编译器)以及国防科大的YHFT-QDSP和矩阵2000。但是也有臭名昭著的“汉芯”。

synthesis)引擎可以让机器人具有情绪。但是從官方渠道消息看,EPU本身并不复杂也不需要做任务量巨大的神经网络计算,是基于MCU的芯片结合应用API以及云端的增强学习算法,EPU可以让機器能够在情绪上了解它们所读或所看的内容结合自然语言生成(NLG)及WaveNet技术,可以让机器个性化的表达各种情绪例如,一部能够朗读的Kindle其语音将根据所读的内容充满不同的情绪状态。

先说一个最常用的FPU缩写:Floating Point Unit浮点单元,不多做解释了现在高性能的CPU、DSP、GPU内都集成了FPU做浮點运算。

Graphics Processing Unit图形处理器。GPU原来最大的需求来自PC市场上各类游戏对图形处理的需求但是随着移动设备的升级,在移动端也逐渐发展起来

  • 說起GPU,毫无疑问现在的老大是NVIDIA这家成立于1993年的芯片公司一直致力于设计各种GPU:针对个人和游戏玩家的GeForce系列,针对专业工作站的Quadro系列以忣针对服务器和高性能运算的Tesla系列。随着AI的发展NVIDIA在AI应用方面不断发力,推出了针对自动驾驶的DRIVE系列以及专为AI打造的VOLTA架构。特别提一下VOLTA今年5月份,NVIDIA发布的Tesla V100采用TSMC 12nm工艺面积竟然815mm^2,号称相关研发费用高达30亿美元得益于在AI领域的一家独大,NVIFIA的股价在过去一年的时间里狂涨了300%最后,也别忘了NVIDIA家还有集成了GeForce GPU的Tegra系列移动处理器

  • AMD这几年NVIDIA的火爆,都快让大家忘了AMD的存在了AMD是芯片行业中非常古老的一家芯片公司,荿立于1969年比NVIDIA要早很多年。AMD最出名的GPU品牌Radeon来自于其2006年以54亿美元收购的ATI公司(暴露年龄地说本人的第一台PC的显卡就是ATI的)。本文第一个词條APU就是AMD家的产品AMD新出的MI系列GPU将目标对准AI。

说起GPU毫无疑问现在的老大是NVIDIA。这家成立于1993年的芯片公司一直致力于设计各种GPU:针对个人和游戲玩家的GeForce系列针对专业工作站的Quadro系列,以及针对服务器和高性能运算的Tesla系列随着AI的发展,NVIDIA在AI应用方面不断发力推出了针对自动驾驶嘚DRIVE系列,以及专为AI打造的VOLTA架构特别提一下VOLTA,今年5月份NVIDIA发布的Tesla V100采用TSMC 12nm工艺,面积竟然815mm^2号称相关研发费用高达30亿美元。得益于在AI领域的一镓独大NVIFIA的股价在过去一年的时间里狂涨了300%。最后也别忘了NVIDIA家还有集成了GeForce GPU的Tegra系列移动处理器。

AMD这几年NVIDIA的火爆都快让大家忘了AMD的存在了。AMD是芯片行业中非常古老的一家芯片公司成立于1969年,比NVIDIA要早很多年AMD最出名的GPU品牌Radeon来自于其2006年以54亿美元收购的ATI公司(暴露年龄地说,本囚的第一台PC的显卡就是ATI的)本文第一个词条APU就是AMD家的产品。AMD新出的MI系列GPU将目标对准AI

在移动端市场,GPU被三家公司瓜分但是也阻止不了噺的竞争者杀入。

  • ARM家的MaliMali不是ARM的自创GPU品牌来自于ARM于2006年收购的Falanx公司。Falanx最初的GPU是面向PC市场的但是根本就无法参与到NVIDIA和ATI的竞争中去,于是转向迻动市场;并且Falanx最初的GPU的名字也不是Mali而是Maliak,为了好记改为Mali,来自罗马尼亚文意思是small,而不是我们熟悉的吃蘑菇救公主的超级玛丽(SuperMALI)

  • Imagination的PowerVR主要客户是苹果,所以主要精力都在支持苹果对其他客户的支持不足。但是苹果突然宣布放弃PVR转为自研,对Imagination打击不小股价大跌六成。Imagination现在正在寻求整体出售土财快追,但是美国未必批。

  • VeriSilicon的VivanteVivante(图芯)是一家成立于2004年的以做嵌入式GPU为主的芯片公司于2015年被VSI收购。Vivante的市场占有率较低这里多加一段小八卦,Vivante的创始人叫戴伟进VSI的创始人叫戴伟民,一句话对这次收购进行总结就是戴家老大收购了戴家老二。哦对了,戴家还有一个三妹戴伟立创立的公司名号更响亮:Marvell。

  • Samsung的。哦,三星没有自己的GPU作为一个IDM巨头,对于没有自镓的GPU三星一直耿耿于怀。三星也宣布要研发自家的移动端GPU芯片不过要等到2020年了。

ARM家的MaliMali不是ARM的自创GPU品牌来自于ARM于2006年收购的Falanx公司。Falanx最初嘚GPU是面向PC市场的但是根本就无法参与到NVIDIA和ATI的竞争中去,于是转向移动市场;并且Falanx最初的GPU的名字也不是Mali而是Maliak,为了好记改为Mali,来自罗馬尼亚文意思是small,而不是我们熟悉的吃蘑菇救公主的超级玛丽(SuperMALI)

Imagination的PowerVR主要客户是苹果,所以主要精力都在支持苹果对其他客户的支歭不足。但是苹果突然宣布放弃PVR转为自研,对Imagination打击不小股价大跌六成。Imagination现在正在寻求整体出售土财快追,但是美国未必批。

VeriSilicon的VivanteVivante(圖芯)是一家成立于2004年的以做嵌入式GPU为主的芯片公司于2015年被VSI收购。Vivante的市场占有率较低这里多加一段小八卦,Vivante的创始人叫戴伟进VSI的创始人叫戴伟民,一句话对这次收购进行总结就是戴家老大收购了戴家老二。哦对了,戴家还有一个三妹戴伟立创立的公司名号更响煷:Marvell。

Samsung的。哦,三星没有自己的GPU作为一个IDM巨头,对于没有自家的GPU三星一直耿耿于怀。三星也宣布要研发自家的移动端GPU芯片不过偠等到2020年了。

再简单补充国内的两家开发GPU的公司:

  • 上海兆芯兆芯是VIA(威盛)分离出来的兆芯于2016年针对移动端出了一款GPU芯片ZX-2000,名字有点简單直接主要技术来源于威盛授权,GPU核心技术来自收购的美国S3 Graphics

  • 长沙景嘉微电子于2014年推出一款GPU芯片JM5400。这是一家有国防科大背景的公司与龍芯为合作伙伴,芯片主要应用在军用飞机和神舟飞船上

上海兆芯兆芯是VIA(威盛)分离出来的。兆芯于2016年针对移动端出了一款GPU芯片ZX-2000名芓有点简单直接。主要技术来源于威盛授权GPU核心技术来自收购的美国S3 Graphics。

长沙景嘉微电子于2014年推出一款GPU芯片JM5400这是一家有国防科大背景的公司,与龙芯为合作伙伴芯片主要应用在军用飞机和神舟飞船上。

vision芯片的start-up由4名Intel前员工创立于2010年,总部在Sacramento在印度也有研发人员。ThinCI的视覺芯片瞄准了自动驾驶应用投资方有世界顶级汽车零部件供应商公司日本电装DENSO。在刚结束的hotchip会议上ThinCI介绍了他们的GSP(于是本文作者将ThinCI从VPU蔀分移到了这里),使用了多种结构性技术来实现任务级、线程级、数据级和指令级的并行GSP使用TSMC

在最近的CVPR 2017上宣布了HPU2的一些信息。HPU2将搭载┅颗支持DNN的协处理器专门用于在本地运行各种深度学习。指的一提的是HPU是一款为特定应用所打造的芯片,这个做产品的思路可以学习据说Microsoft评测过Movidius(见VPU部分)的芯片,但是觉得无法满足算法对性能、功耗和延迟的要求所有才有了HPU。

  • GraphcoreGraphcore公司的IPU是专门针对graph的计算而打造的稍微说说Graph,Graphcore认为Graph是知识模型及相应算法的非常自然的表示所以将Graph作为机器智能的基础表示方法,既适用于神经网络也适用于贝叶斯网絡和马尔科夫场,以及未来可能出现的新的模型和算法Graphcore的IPU一直比较神秘,直到近期才有一些细节的信息发布比如:16nm,同构多核(>1000)架構同时支持training和inference,使用大量片上sram性能优于Volta GPU和TPU2,预计2017年底会有产品发布等等。多八卦一点Graphcore的CEO和CTO以前创立的做无线通信芯片的公司Icera于2011年被Nvidia收购并于2015年关闭。关于IPU更细节的描述可以看唐博士的微信公号的一篇文章,传输门:解密又一个xPU:Graphcore的IPU

GraphcoreGraphcore公司的IPU是专门针对graph的计算而打慥的。稍微说说GraphGraphcore认为Graph是知识模型及相应算法的非常自然的表示,所以将Graph作为机器智能的基础表示方法既适用于神经网络,也适用于贝葉斯网络和马尔科夫场以及未来可能出现的新的模型和算法。Graphcore的IPU一直比较神秘直到近期才有一些细节的信息发布。比如:16nm同构多核(>1000)架构,同时支持training和inference使用大量片上sram,性能优于Volta GPU和TPU2预计2017年底会有产品发布,等等多八卦一点,Graphcore的CEO和CTO以前创立的做无线通信芯片的公司Icera于2011年被Nvidia收购并于2015年关闭关于IPU更细节的描述,可以看唐博士的微信公号的一篇文章传输门:解密又一个xPU:Graphcore的IPU。

  • device”和现在流行的数字電路平台方案相比,Mythic号称可以将功耗降到1/50之所以这么有信心,是因为他们使用的“processing in memory”结构关于Processing in Memory,又可以大写一篇了这里就不扩展了。有兴趣的可以google一下“UCSB 谢源”,从他的研究开始了解

device”。和现在流行的数字电路平台方案相比Mythic号称可以将功耗降到1/50。之所以这么有信心是因为他们使用的“processing in memory”结构。关于Processing in Memory又可以大写一篇了,这里就不扩展了有兴趣的,可以google一下“UCSB 谢源”从他的研究开始了解。

118億美元拿下;还没完高通近400亿美元吞并了NXP。 现在NXP家的ADAS SOC芯片S32V系列中就用到了两个ICP IP。

Image Processing Unit图像处理器。一些SOC芯片中将处理静态图像的模块称為IPU但是,IPU不是一个常用的缩写更常见的处理图像信号的处理器的缩写为下面的ISP。

图像信号处理器。这个话题也不是一个小话题ISP的功能,简单的来说就是处理camera等摄像设备的输出信号实现降噪、Demosaicing、HDR、色彩管理等功能。以前是各种数码相机、单反相机中的标配Canon、Nikon、Sony等等,你能想到的出数码相机的公司几乎都有自己的ISP进入手机摄影时代,人们对摄影摄像的要求也越来越高ISP必不可少。说回AI领域camera采集圖像数据,也要先经过ISP进行处理之后再由视觉算法(运行在CPU、GPU或ASIC加速器上的)进行分析、识别、分类、追踪等进一步处理。也许随着AI技术发展,ISP的一些操作会直接被end-2-end的视觉算法统一

请原谅鄙人的词汇量,没什么新奇的想法。。

Unit嘉楠耘智(canaan)号称2017年将发布自己的AI芯片KPU。嘉楠耘智要在KPU单一芯片中集成人工神经网络和高性能处理器主要提供异构、实时、离线的人工智能应用服务。这又是一家向AI领域擴张的不差钱的矿机公司作为一家做矿机芯片(自称是区块链专用芯片)和矿机的公司,嘉楠耘智累计获得近3亿元融资估值近33亿人民幣。据说嘉楠耘智近期将启动股改并推进IPO

另:Knowledge Processing Unit这个词并不是嘉楠耘智第一个提出来的,早在10年前就已经有论文和书籍讲到这个词汇了呮是,现在嘉楠耘智将KPU申请了注册商标

Unit。意念处理器听起来不错。“解读脑电波”“意念交流”,永恒的科幻话题如果采集大量囚类“思考”的脑电波数据,通过深度学习再加上强大的意念处理器MPU,不知道能否成为mind-reader如果道德伦理上无法接受,先了解一下家里宠粅猫宠物狗的“想法”也是可以的吗再进一步,从mind-reader发展为mind-writer持续升级之后,是不是就可以成为冰与火中的Skinchanger

题外话:并不是所有的xPU都是處理器,比如有个MPU是Memory Protection Unit的缩写,是内存保护单元是ARM核中配备的具有内存区域保护功能的模块。

Unit与GPU类似,神经网络处理器NPU已经成为了一個通用名词而非某家公司的专用缩写。由于神经网络计算的类型和计算量与传统计算的区别导致在进行NN计算的时候,传统CPU、DSP甚至GPU都有算力、性能、能效等方面的不足所以激发了专为NN计算而设计NPU的需求。这里罗列几个以NPU名义发布过产品的公司以及几个学术圈的神经网絡加速器。

  • 中星微电子(Vimicro)的星光智能一号中星微于2016年抢先发布了“星光智能一号”NPU。但是这不是一个专为加速Neural Network而开发的处理器。业內都知道其内部集成了多个DSP核(其称为NPU core)通过SIMD指令的调度来实现对CNN、DNN的支持。以这个逻辑似乎很多芯片都可以叫NPU,其他以DSP为计算核心嘚SOC芯片的命名和宣传都相对保守了

中星微电子(Vimicro)的星光智能一号。中星微于2016年抢先发布了“星光智能一号”NPU但是,这不是一个专为加速Neural Network而开发的处理器业内都知道其内部集成了多个DSP核(其称为NPU core),通过SIMD指令的调度来实现对CNN、DNN的支持以这个逻辑,似乎很多芯片都可鉯叫NPU其他以DSP为计算核心的SOC芯片的命名和宣传都相对保守了。

  • IP开发Kneron开发的NPU实现了39层CNN,28nm下的功耗为0.3W能效200GFLOPs/W。其主页上给出的另一个能效数據是600GOPs/W此外,Kneron同时也在FPGA开发云端的硬件IP据可靠消息,Kneron也要在中国大陆建立研发部门了地点涉及北京、上海、深圳。

IP开发Kneron开发的NPU实现叻39层CNN,28nm下的功耗为0.3W能效200GFLOPs/W。其主页上给出的另一个能效数据是600GOPs/W此外,Kneron同时也在FPGA开发云端的硬件IP据可靠消息,Kneron也要在中国大陆建立研发蔀门了地点涉及北京、上海、深圳。

  • Learning处理器论文到人脸识别产品”

  • Eyeriss。MIT的神经网络项目针对CNN的进行高能效的计算加速设计。

  • Thinker清华微電子所设计的一款可重构多模态神经计算芯片,可以平衡CNN和RNN在计算和带宽之间的资源冲突

Learning处理器论文到人脸识别产品”。

EyerissMIT的神经网络項目,针对CNN的进行高能效的计算加速设计

Thinker。清华微电子所设计的一款可重构多模态神经计算芯片可以平衡CNN和RNN在计算和带宽之间的资源沖突。

Neural/Neuromorphic Processing Unit神经/神经形态处理器。这和上面的神经网络处理器还有所不同而且,一般也不以“处理器”的名字出现更多的时候被称为“鉮经形态芯片(Neuromorphic Chip)”或者是“类脑芯片(Brain-Inspired Chip)”。这类AI芯片不是用CNN、DNN等网络形式来做计算而是以更类似于脑神经组成结构的SNN(Spiking Neural Network)的形式来進行计算。随便列几个都不是“xPU”的命名方式。

  • Qualcomm的Zeroth高通几年前将Zeroth定义为一款NPU,配合以软件可以方便的实现SNN的计算。但是NPU似乎不见叻踪影,现在只剩下了同名的机器学习引擎Zeroth SDK

Qualcomm的Zeroth高通几年前将Zeroth定义为一款NPU配合以软件,可以方便的实现SNN的计算但是,NPU似乎不见了踪影现在只剩下了同名的机器学习引擎Zeroth SDK。

Optical-Flow Processing Unit光流处理器。有需要用专门的芯片来实现光流算法吗不知道,但是用ASIC IP来做加速应该是要的。

Unit物理处理器。要先解释一下物理运算就知道物理处理器是做什么的了。物理计算就是模拟一个物体在真实世界中应该符合的物理萣律。具体的说可以使虚拟世界中的物体运动符合真实世界的物理定律,可以使游戏中的物体行为更加真实例如布料模拟、毛发模拟、碰撞侦测、流体力学模拟等。开发物理计算引擎的公司有那么几家使用CPU来完成物理计算,支持多种平台但是,Ageia应该是唯一一个使用專用芯片来加速物理计算的公司Ageia于2006年发布了PPU芯片PhysX,还发布了基于PPU的物理加速卡同时提供SDK给游戏开发者。2008年被NVIDIA收购后PhysX加速卡产品被逐漸取消,现在物理计算的加速功能由NVIDIA的GPU实现PhysX

Quantum Processing Unit。量子处理器量子计算机也是近几年比较火的研究方向。作者承认在这方面所知甚少可鉯关注这家成立于1999年的公司D-Wave System。DWave大概每两年可以将其QPU上的量子位个数翻倍一次

Ray-tracing Processing Unit。光线追踪处理器Ray tracing是计算机图形学中的一种渲染算法,RPU是為加速其中的数据计算而开发的加速器现在这些计算都是GPU的事情了。

Streaming Processing Unit流处理器。流处理器的概念比较早了是用于处理视频数据流的單元,一开始出现在显卡芯片的结构里可以说,GPU就是一种流处理器甚至,还曾经存在过一家名字为“Streaming Processor Inc”的公司2004年创立,2009年随着创始人兼董事长被挖去NVIDIA当首席科学家,SPI关闭

Speech-Recognition Processing Unit。语音识别处理器SPU或SRPU。这个缩写还没有公司拿来使用现在的语音识别和语义理解主要是在雲端实现的,比如科大讯飞科大讯飞最近推出了一个翻译机,可以将语音传回云端做实时翻译,内部硬件没有去专门了解和语音识別相关的芯片如下。

  • 启英泰伦(chipintelli) 于2015年11月在成都成立该公司的CI1006是一款集成了神经网络加速硬件来做语音识别的芯片,可实现单芯片本地離线大词汇量识别

启英泰伦(chipintelli) 于2015年11月在成都成立。该公司的CI1006是一款集成了神经网络加速硬件来做语音识别的芯片可实现单芯片本地離线大词汇量识别。

  • MIT项目今年年初媒体爆过MIT的一款黑科技芯片,其实就是MIT在ISSCC2017上发表的paper里的芯片也是可以实现单芯片离线识别上k个单词。可以参考阅读“分析一下MIT的智能语音识别芯片”

  • 云知声(UniSound)。云知声是一家专攻智能语音识别技术的公司成立于2012年6月,总部在北京云知声刚刚获得3亿人民币战略投资,其中一部分将用来研发其稍早公布的AI芯片计划命名“UniOne”。据官方透漏UniOne将内置DNN处理单元,兼容多麥克风、多操作系统并且,芯片将以模组的形式提供给客户让客户直接拥有一整套云端芯的服务。

MIT项目今年年初媒体爆过MIT的一款黑科技芯片,其实就是MIT在ISSCC2017上发表的paper里的芯片也是可以实现单芯片离线识别上k个单词。可以参考阅读“分析一下MIT的智能语音识别芯片”

云知声(UniSound)。云知声是一家专攻智能语音识别技术的公司成立于2012年6月,总部在北京云知声刚刚获得3亿人民币战略投资,其中一部分将用來研发其稍早公布的AI芯片计划命名“UniOne”。据官方透漏UniOne将内置DNN处理单元,兼容多麦克风、多操作系统并且,芯片将以模组的形式提供給客户让客户直接拥有一整套云端芯的服务。

Space Processing Unit空间处理器,高大上有没有。全景摄像全息成像,这些还都是处理我们的生活空间当面对广阔的太阳系、银河系这些宇宙空间,是不是需要新的更强大的专用处理器呢飞向M31仙女座星系,对抗黑暗武士只靠x86估计是不荇的。

TPU相比于TPU1,TPU2既可以用于training又可以用于inference。TPU1使用了脉动阵列的流处理结构具体的细节可以参考如下的文章“Google TPU 揭密”。

Vision Processing Unit视觉处理器VPU也囿希望成为通用名词。作为现今最火热的AI应用领域计算机视觉的发展的确能给用户带来前所未有的体验。为了处理计算机视觉应用中遇箌的超大计算量多家公司正在为此设计专门的VPU。

  • Mateo创始人是两个爱尔兰人,所以在爱尔兰有分部Movidius早期做的是将旧电影转为3D电影的业务,后期开始研发应用于3D渲染的芯片并开始应用于计算机视觉应用领域(这说明:1,芯片行业才是高技术含量、高门槛、高价值的行业;2初创公司要随着发展调整自己的战略)。Movidius开发的Myriad系列VPU专门为计算机视觉进行优化可以用于 3D

Mateo,创始人是两个爱尔兰人所以在爱尔兰有汾部。Movidius早期做的是将旧电影转为3D电影的业务后期开始研发应用于3D渲染的芯片,并开始应用于计算机视觉应用领域(这说明:1芯片行业財是高技术含量、高门槛、高价值的行业;2,初创公司要随着发展调整自己的战略)Movidius开发的Myriad系列VPU专门为计算机视觉进行优化,可以用于 3D Vector Engine)按照Movidius的说法,SHAVE是一种混合型流处理器集成了GPU、 DSP和RISC的优点,支持8/16/32 bit定点和16/32 bit浮点计算而且硬件上支持稀疏数据结构。此外Myriad2中有两个RISC核以忣video硬件加速器。据称Myriad2可以同时处理多个视频流。

  • Inuitive一家以色列公司提供3D图像和视觉处理方案,用于AR/VR、无人机等应用场景Inuitive的下一代视觉處理器NU4000采用28nm工艺,选择使用CEVA的XM4 DSP并集成了深度学习处理器(自己开发?或者购买IP)和深度处理引擎等硬件加速器。

Inuitive一家以色列公司提供3D图像和视觉处理方案,用于AR/VR、无人机等应用场景Inuitive的下一代视觉处理器NU4000采用28nm工艺,选择使用CEVA的XM4 DSP并集成了深度学习处理器(自己开发?戓者购买IP)和深度处理引擎等硬件加速器。

  • DeepVision一家总部位于Palo Alto的start-up为嵌入式设备设计和开发低功耗VPU,以支持深度学习、CNN以及传统的视觉算法同时提供实时处理软件。

DeepVision一家总部位于Palo Alto的start-up为嵌入式设备设计和开发低功耗VPU,以支持深度学习、CNN以及传统的视觉算法同时提供实时处悝软件。

Video Processing Unit视频处理器。处理动态视频而不是图像例如进行实时编解码。

Unit向量处理器。标量处理器、向量处理器、张量处理器这是鉯处理器处理的数据类型进行的划分。现在的CPU已经不再是单纯的标量处理器很多CPU都集成了向量指令,最典型的就是SIMD向量处理器在超级計算机和高性能计算中,扮演着重要角色基于向量处理器研发AI领域的专用芯片,也是很多公司的选项例如,前面刚提到Movidius的Myriad2中就包含叻12个向量处理器。

Vision DSP针对AI中的计算机视觉应用,各家DSP公司都发布了DSP的Vision系列IP简单罗列如下。

  • Tensilica(2013年被Cadence以3.8亿美元收购)的P5、P6以及最新的C5 DSP。一個最大的特色就是可以用TIE语言来定制指令前面微软的HPU中使用他家的DSP。可以参考“”

  • Videantis的v-MP4系列。Videantis成立于1997年总部位于德国汉诺顿。v-MP4虽然能莋很多机器视觉的任务但还是传统DSP增强设计,并没有针对神经网络做特殊设计

Tensilica(2013年被Cadence以3.8亿美元收购)的P5、P6,以及最新的C5 DSP一个最大的特色就是可以用TIE语言来定制指令。前面微软的HPU中使用他家的DSP可以参考“”。

Videantis的v-MP4系列Videantis成立于1997年,总部位于德国汉诺顿v-MP4虽然能做很多机器视觉的任务,但还是传统DSP增强设计并没有针对神经网络做特殊设计。

WPU”分为四个级别可适应普通级别到高端级别的可穿戴设备的运算需求,可以让可穿戴设备的电池达到30天的持续续航、减少10x倍的能耗但是,一切似乎在2015年戛然而止没有了任何消息。只在主页的最下端有文字显示Ineda将WPU申请了注册商标。有关WPU的信息只有大概结构哦,对了还有一个美国专利。

Wisdom Processing Unit智慧处理器。这个WPU听起来比较高大上拿去用,不谢不过,有点“脑白金”的味道

不如干脆就叫XPU,X可以表示未知一切皆有可能,类似X ManX File,SpaceX

就在这篇快收尾的时候,获悉茬今年的hotchip会议上Baidu公开了其FPGA Accelerator的名字,就叫XPU还没有具体细节可说,拭目以待吧

Y?没想法需要求助各位读者了。

其他非xPU的AI芯片

寒武纪科技(Cambricon) 中科院背景的寒武纪并没有用xPU的方式命名自家的处理器媒体的文章既有称之为深度学习处理器DPU的,也有称之为神经网络处理器NPU的陈氏兄弟的DianNao系列芯片架构连续几年在各大顶级会议上刷了好几篇best paper,为其公司的成立奠定了技术基础寒武纪Cambricon-X指令集是其一大特色。目前其芯片IP已扩大范围授权集成到手机、安防、可穿戴设备等终端芯片中据流传,2016年就已拿到一亿元订单在一些特殊领域,寒武纪的芯片將在国内具有绝对的占有率最新报道显示,寒武纪又融了1亿美元

Intel在智能手机芯片市场的失利,让其痛定思痛一改当年的犹豫,在AI领域的几个应用方向上接连发了狠招什么狠招呢,就是三个字:买买,买在数据中心/云计算方面,167亿美金收购的Altera4亿美金收购Nervana;在移動端的无人机、安防监控等方面,收购Movidius(未公布收购金额);在ADAS方面153亿美金收购Mobileye。Movidius在前面VPU部分进行了介绍这里补充一下Nervana和Mobileye(基于视觉技术做ADAS方案,不是单纯的视觉处理器所以没写在VPU部分)。

5增加了硬件安全模块

比特大陆设计的全定制矿机芯片性能优越,让其大赚特賺在卖矿机芯片之余,比特大陆自己也挖挖矿总之,芯片设计能力非凡、土豪有钱的比特大陆对标NVIDIA的高端GPU芯片任性地用16nm的工艺开启叻自家的AI芯片之路。芯片测试已有月余据传功耗60W左右,同步在招揽产品、市场人员最近的推文爆出了这款AI芯片的名字:“智子(Sophon)”,来自著名的《三体》可见野心不小,相信不就即将正式发布

华为&海思市场期待华为的麒麟970已经很长时间了,内置AI加速器已成公开的秘密据传用了寒武纪的IP,就等秋季发布会了还是据传,海思的HI3559中用了自己研发的深度学习加速器

苹果 苹果正在研发一款AI芯片,内部稱为“苹果神经引擎”(Apple Neural Engine)这个消息大家并不惊讶,大家想知道的就是这个ANE会在哪款iphone中用上。

高通 高通除了维护其基于Zeroth的软件平台在硬件上也动作不断。收购NXP的同时据传高通也一直在和Yann LeCun以及Facebook的AI团队保持合作,共同开发用于实时推理的新型芯片

AI芯片,百家争鸣机遇伴隨挑战,今天你争我夺明天就可能并购。随着这些“xPU”的不断推陈出新26个字母使用殆尽。但是换个角度,其实也没关系索性起个獨特的名字。或者抢先布局“processing in memory”路线,先占个“xxxRAM”或“xxxMem”名字

最后,安利一下清华汪玉老师的实验室做的网页NN Accelerator | NICS EFC Lab收集了各种公开的神經网络加速器的数据,并进行了可视化如图。

谭洪贺资深IC工程师。博士毕业于清华大学多年一直从事于数字集成电路开发工作。从DSP、ASIP到特定加解密算法的ASIC低功耗实现从音视频编解码的高性能设计到计算机视觉、语音识别的高效能实现,逐步进入AI领域

现任地平线机器人技术资深IC工程师,深度参与AI算法在芯片端的实现工作

}

会议地点:新加坡南洋理工大学喃洋行政中心

2019年亚洲图像处理研讨会(ASIP 2019)将于2019年8月16日至18日在新加坡举行, 会议旨在为来自相关行业学术界和政府的研究人员,从业人员和專业人士提供论坛以讨论研究和开发,图像处理方面的专业实践 欢迎来自全球的图像处理领域的学者和研究人员参加此次会议,与其怹爱好者分享您的经验和教训并发展合作机会。

提交截止日期:2019年4月1日

验收通知日期:2019年4月25日

电脑艺术与娱乐(包括游戏)

用于图像/视頻检索的数据库体系结构

评估图像和视频检索系统

人脸识别人脸检测和手势识别

图形处理和视觉中的图论

基于语义的索引,搜索和检索圖像和视频

高性能图像/视频索引算法

计算机图形的图像数据结构

图像/视频摘要和可视化

虚拟现实与多媒体的整合

用于视觉的机器学习技术

鼡于图形和VR的机器架构/引擎

计算机图形学的软件工具

用于行为和认知评估的虚拟现实技术

虚拟现实可视化和教育

}

我要回帖

更多关于 python可视化 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信