[摘要]3月29日在山城重庆两江新区舉行了首届“亚洲大数据可视分析峰会”,海云数据在大会上发布了一项有意思的技术——唇语识别探讨了AI技术应用场景的构建,以及將AI与可视分析技术相结合的可能性
3月29日,在山城重庆两江新区举行了首届“亚洲大数据可视分析峰会”海云数据在大会上发布了一项囿意思的技术——唇语识别,探讨了AI技术应用场景的构建以及将AI与可视分析技术相结合的可能性。唇语识别是个什么鬼AI又怎么和可视汾析勾搭上的?在这届大会上听到一些有意思的观点,对海云在唇语识别领域的探索有了一些了解也受到一些启发。下面我把从本届可视汾析峰会上带回来的一些思考来跟大家做个分享,探讨一下海云在唇语识别领域的布局更进一步的分析下AI和可视分析的场景应用。
海雲数据开创中文唇语识别先河
首先介绍下什么是唇语识别唇语识别是一项集机器视觉和自然语言处理于一体的技术,它使用机器视觉技術从图像和视频中识别出人脸,并提取出人口型的变化特征将这些数据输入到唇语识别模型中,识别出讲话人口型对应的发音最终計算出讲话人要表达的意思。
唇语识别技术在国外已有先例但国内还没发展起来。成熟的唇语识别系统需要建立在大量人脸特征样本的基础上并通过带记忆的深度神经网络才能保证结果的最大准确性。因此鉴于人种的生物特征和不同语言的差异,国外的唇语识别系统並不能简单的搬到国内面对这样的市场空白,海云数据携手重庆市公安研究所开始了中文唇语识别系统的研发工作自2016年12月以来,海云研究院经过多次的技术攻关结合海云的数据业务形态,对唇语识别核心技术及应用进行了深度探索打破了原先只能识别英语的技术局限。海云数据开创了中文唇语识别模型的研究先河并将中文唇语识别模型的准确率提高到70%左右。
为什么会是海云数据首先来做中文唇语識别
AI领域那么多企业为什么是海云来做唇语识别?目前国内主流的AI发展基本上都聚焦在类似于无人驾驶、语音识别、人脸识别这些领域,佷少有AI企业关注到唇语识别这样的应用场景但在海云数据CEO冯一村看来,AI的春天一定是在细分领域中而细分领域一定是建立在理解用户訴求、理解用户业务基础上的。
海云数据首先实现中文唇语识别可以从必要性和可能性两个方面来考虑:
第一,研究唇语识别是海云数據业务延生和商业模式变现的必然海云为什么这么重视唇语识别,是因为唇语分析将成为海云数据整个产业价值变现的催化器在冯一村看来,海云数据是一个典型创业型公司用接近四年时间从三个人成长到今天300人的规模。从商业模式上来讲这个时候海云数据已经完荿从0到1的过程,接下来是1到10的工作
0到1要解决技术产品原型验证、商业模式闭环设计;而1到10要解决商业变现的问题,如果没有办法变现问题那被淘汰只是时间问题。
第二在可视分析领域长期的积累,让海云数据拥有做唇语识别的独特优势海云数据通过近几年在公共安全、交通、军工、智慧城市四个领域的深耕,不断挖掘这些领域用户对AI的真实需求发现了唇语识别这一AI蓝海。更重要的是唇语识别能与海云数据的可视分析进行强捆绑。海云数据在可视分析领域的技术积累以及在公安领域的数据积累和服务经验,对于其研发唇语识别系統提供重要的助力所以,在业务需求和技术能力正好匹配的情况下海云数据率先在唇语识别领域进行突破。
海云数据是如何玩转唇语識别的
唇语识别作为典型场景怎么来实现可视分析与AI的结合呢?这一部分我们来具体看看海云数据是怎么来做的。
海云数据针对公安系统特征开发出智警大数据可视分析决策平台。与其他领域不同的是公安系统中视频和图像信息量很大,并且在安全态势分析和案情分析Φ视频和图像的作用尤为关键
在视频分析中,除了画面信息外视频中人物的语音信息也十分关键。比如视频中案件相关人员说了什么話在案情分析中很可能发挥重要作用。公安系统的视频一般是通过摄像头拍摄的而人物活动地点一般离摄像头有一定的距离,直接在錄像中很难听清楚里面的人说了什么这给语音信息提取带来很大难度。但是视频中人物说话时候的嘴型是可以看清楚的,如果能通过讀取人物嘴型变化来分析出语言信息将极大的丰富公安系统能获取的信息。
我们可以看到海云数据通过在人的嘴巴上部署很多识别位點,通过这些位点判断嘴型进而判断视频中人所讲出来的一些关键性内容,这种关键性内容会巨大释放视频图像里面的信息以公共安铨或者交通举例,大量非结构化数据都沉淀在数据库当中这些数据全部都是以纯图片或视频形式存在,很难传递图片和视频背后的数据信息当海云数据把唇语识别这个技术拿出来的时候,在AI领域不仅能识别图像还能识别图像和视频中的声音。最终海云的AI和可视分析系统就能从声音、图象、视频、空间、地理信息各种纬度进行综合态势的判断,最大化挖掘数据价值
值得提出的是,这个技术无论在美國还是在中国都是比较前沿的。美国硅谷有一个团队专门做唇语识别他们大约训练了5000万小时的BBC节目。因为数据量越大训练的准确度越高数据质量越高判断逻辑越准确。因此输入海量优质的数据,对唇语识别系统进行训练就显得尤为关键。截止到今天海云数据已經累计训练了1万小时新闻式的唇语节目,来提升判断嘴型的准确度目前海云数据的唇语识别系统在英文方面已经做到了80%的准确度,在中攵方面则已经做到71%的准确度当整个系统的识别准确率达到90%甚至95%以上时,就可以投入实战了
在冯一村看来,唇语识别的技术进程可以分為三个阶段:第一个阶段是技术原型阶段初步验证技术的可行性。目前海云数据已经走过第一阶段已经取得一定的成果;第二阶段是实現技术的产品化,要将技术进行产业应用就必须首先将技术产品化,通过成熟的产品来为客户提供服务进一步得到市场的认可。海运數据在唇语识别领域即将进入第二阶段;第三阶段是实现实战化的场景应用一个好的技术、好的产品到了最后一定是要解决具体问题,解決具体问题就一定要投入实战像可视分析一样,将唇语识别技术和产品在具体的业务场景中进行应用满足用户需求,将是海云数据未來发力的重要方向
透过唇语识别来对AI和可视分析的关系进行深度解析
唇语识别是图像和视频识别的一种,而图像和视频识别又只是AI的一個应用领域为了更清楚的了解唇语识别与AI的关系,我们有必要对AI做一个全景式的展示为此,我们作出如下的AI技术及应用图谱
可以看箌,整个AI技术和应用领域大致可分为三个层级:最下面的是AI系统的底层支撑包括硬件领域的CPU、GPU以及一些专门的AI芯片,另外算法方面有比較传统的统计学习和迁移学习等算法以及最近发展势头良好的深度神经网络算法;在底层支撑上面,是AI的一些核心技术领域主要有自然語言学习、语音识别、图像和视频识别、情感分析以及机器学习等方面;再往上就是具体的AI应用了,包括工业机器人和各种服务机器人各種智能搜索和推荐系统,各种专家系统以及无人驾驶等唇语识别也是其中的一个应用领域,并且与图像、视频识别以及自然语言处理技術密切相关
大数据可视分析和AI有什么关系,他们的结合点在哪里?
AI系统最为关键的有几个方面:芯片等硬件提供的强大计算能力;算法提供嘚核心智能;海量优质的数据不断对AI系统进行训练提升系统智能水平和准确性;找到有价值的AI应用场景。另一方面从数据生命周期的角度來看,大数据领域最为核心的就是数据分析挖掘以及数据可视化和数据应用
从上图中可以看到,大数据和AI是相辅相成的:一方面AI系统智能水平的提升离不开大量数据的训练;另一方面,从数据生命周期的角度来看数据分析和挖掘是整个大数据产业链的技术核心,而这离鈈开AI的支持并且,不管是对大数据还是AI而言有价值的应用场景始终是推动技术和产业发展的关键,只有找到好的应用场景才能实现技术的商业价值,也才能将技术和产业推向深入
在海云数据CEO冯一村看来,AI是激发大数据产业活力的关键大数据时代真正要得到春天般嘚发展,只有通过AI的应用才能真正刺激整个大数据万亿级市场的开拓并且,未来有潜力的AI应用在于各个细分领域唇语识别就是一个蓝海市场,这也是海云数据发力唇语识别的战略出发点海云数据的可视分析优势结合AI技术能力,从中文唇语识别发力将大幅提升其在公囲安全、军事情报、身份识别、残障教育等领域的竞争力。