各位大侠有什么汉王ocr开源sdk代码的ocr推荐吗

点击联系发帖人 时间：2017-11-06 19:26

ocr java 开源

白描是一款 OCR 文字识别工具，支持批量文字识别、多语言识别、多语言翻译、快速校对以及表格识别。@Appinn
来自发现频道。
自从有了云 OCR 引擎，做一款简单易用的 OCR 应用门槛也降低了不少。
白描可以识别多种文字包括简体中文、日语、英...
CamCard 是著名中区特供应用《名片全能王》的付费全区版本，无内购，无广告，无限制，目前限免中。@Appinn
青小蛙好不容易搞清了他们的关系。这款叫做 CamCard 的应用，与名片全能王是同一款应用，区别在于前者在 App Store 全区上架，原始售...
白描是一款图片 OCR 识别转成文字的工具，支持自动分段，使用百度文字识别API。@Appinn
来自发现频道：
因为女盆友经常使用图片识别文字的功能，使用了很多也没有太满意的，就是需要一款简单地，纯净的，于是就想自己做一个图片文字识别的 OCR...
TextGrabber 6 是一款来自 ABBYY 的知名 OCR 应用，通过摄像头实时获取文字，支持多种语言（包括中文），并且对一些特殊文字如地址还可以直接启用导航。@Appinn
实时取词相比起拍照来说更加方便，青小蛙遇到很多次在路上需要记录内容的情况，一...
Adobe Scan 是 Adobe 推出的一款免费的拍照后生成 PDF 的应用，并且内置了光学字符识别（OCR）功能，虽然听起来不错，但并没有想象的美好。@Appinn
无数的媒体直接将 Adobe Scan 形容为「免费的 OCR 文字识别应用」，你在逗我嘛？
单独安装一款...
Mobile Doc Scanner 3 + OCR 是一款 Android 上的扫描与 OCR 应用，能够快速将收据、名片、文件等内容通过拍照处理后，保存为 PDF 文档，并且支持简繁中文在内的 OCR 文字识别，支持批量操作，原价 4.99 美金，在 Play 商店评分 4.6/5.0（11,199...
Screenshot Crop & Share 是一款利用 Android 系统截图功能的二次处理应用，能够即时对截图进行剪裁、标记、涂抹以及 OCR 功能，其中涂抹与 OCR 属于内购功能。@Appinn
青小蛙一直对 Android 上的截图工具不太满意，所以之前的处理过程都...
LetterSnap OCR 是一款 iPhone / iPad 上免费的 OCR 应用，能够快速扫描图片，并识别出文字来，支持中文。@Appinn
很久没有推荐过 OCR 应用了，LetterSnap OCR 扫描速度不错。
无论什么内容，只要上面有文字，用 LetterSnap OCR 拍摄下来就可...
Office Lens 是一款微软出品的 iPhone、Android 和 WP 应用，用来拍照扫描文档、白板、照片，并且还能识别其中的文字，还可以将图像转换为 Word、PowerPoint 和 PDF 文件。@Appinn
与前几天介绍的 TextGrabber + Translator – OCR 文字识别，翻...
TextGrabber + Translator 是一款手机端的 OCR 文字识别、自动翻译应用，支持 60 多种语言，可以快速捕捉杂志、书籍、文档等媒介上印刷文本的任何部分并转换为文字。@Appinn
微博的 @Noodle_同学在提问 “Win7 有没有什么软件是可以将图片里的字...
文字识别技术 (OCR) 发展至今已有 30 多年的历史，但每次复制目标文字前，都必须先将图片、PDF 导入至特殊软件进行扫描分析，有些不太方便。终于，革命性的 Project Naptha 诞生了。 @Appinn
Project Naptha 是个人独立开发项目，能够实时自动...
文通 TH-OCR 免费版是一款免费的 OCR 光学字符识别工具，可以识别简体中文、繁体中文及英文，支持图片格式以及扫描仪。@Appinn
OCR 工具应用广泛，可以很容易的让纸质文档电子化，而在摄像头如此普及的今天，就更加方便了电子化。
文通 TH-OCR...
涂书笔记是一款用来摘录读书笔记的工具，只需要将需要的书本段落拍下来，用手指头勾出句子，就会自动识别为文本。@Appinn
涂书笔记适合于读书的时候碰到好句子了随手摘录分享到微博、微信。由于不带有分享到笔记工具功能，想正儿八经做笔...
Ground Truth Text 是一款开源 OCR 软件，可以轻松获取图片中的大段文本，并保存下来，也可以一键获取图片中的所有文本，简单易用。 @Appinn
Tools –& Area Text OCR ：选择文本即可；
Copy Text From：一键获取图片所有文本；
没有什么比照着打印出来的材料，再把字原样输入计算机更让人没有成就感。汉王 PDF OCR 是衣二狗应付这种情况的神器。只需将材料扫描/用手机拍照，然后交给软件识别成文本。汉王 PDF OCR 提供 PDF 自动转换 RTF/TXT 功能，同时支持 TIFF/JPEG/GIF...
前几天看到有道桌面辞典杀出来个 2.0 beta 版本，抽空测试了下，比较吸引我的是它的 OCR 翻译。
嘛是 OCR？via 维基百科
光学字符识别（OCR，Optical Character Recognition)是指对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版...
按分类查看文章:
最热门标签
传说中的小众软件让你的手机应用与众不同。
商业网站、微信公众号或其他未授权媒体不得复制、转载、使用本站内容。OCR从入门到不精通 - 简书
OCR从入门到不精通
最近在爬某网站，老是蹦出来验证码，就想着找个OCR破了这个验证码，然后就开始了OCR探索之旅。
首先简单说一下什么是OCR
OCR是（Optical Character Recognition，光学字符识别）的简称，主要用途：
办公用途，用来识别图片里面的文字，可以高效率的录入图片类型文件。
识别网站验证码
OCR识别的验证码原理
采集一批验证码，根据图片特点进行初步处理（二值化/灰度化/滤波/降噪等处理）
然后分割图片，旋转图片，模板选取，训练算法，让它更准确。
有兴趣的可以看一个Python实现的OCR识别验证码详细,实际操作过程挺有意思的，大家有兴趣了可以试试OCR识别验证码的具体操作
首先我测试了一个百度开源的Node.js实现的OCR包gitHub地址安装也很简单直接按照安装即可发现百度的这个OCR包识别效果不太理想
node_ocr.png
然后经过一番Google和小伙伴们的推荐
选择一个Google开源的这个是C++写的，直接融合到爬虫里不太方便，有外国朋友基于tesseract封装了一个Python的包,直接开箱即用，融入爬虫程序中。
百闻不如一run ps(这里使用的操作系统是Ubuntu16.04；Python版本是2.7) 直接 pip install pytesseract 然后Python图片处理要用到PIL(Python Imaging Library) pip install PIL 原图片
写个简单的测试demo
看下识别结果
报错了，根据报错信息来看，是确实了什么文件，或者依赖lib 我跟踪了pytesseract的代码，发现是少了C++提供的OCR服务，因为pytesseract是调用的tesseract(C++写的) 然后安装tesseract sudo apt install tesseract 再run一下代码
pyocr_res.png
整体结果还可以（倒数第四位识别错了），再训练一下准确率就更高了。预知后事如何，且听下回分解
一个技术爱好者，程序员，站长Ocr ocr 一个开源的英文字符以及数字识别软件 Speech/Voice recognition/combine
&File: Ocr
& & & & &&]
&&Directory:
&&Dev tools: Visual C++
&&File size: 4575 KB
&&Downloads: 3
&&Uploader:
&Describe: ocr 一个开源的英文字符以及数字识别软件
File list(Click to check if it's the file you need, and recomment it at the bottom):
&&bin&&...\convert.exe&&...\dlltest.exe&&...\java&&...\....\ScrollView.jar&&...\ocr.bat&&...\pdftotext.exe&&...\tessdata&&...\........\eng.DangAmbigs&&...\........\eng.freq-dawg&&...\........\eng.inttemp&&...\........\eng.normproto&&...\........\eng.pffmtable&&...\........\eng.unicharset&&...\........\eng.user-words&&...\........\eng.word-dawg&&...\tessdll.dll&&...\tessdll.lib&&...\tesseract.exe&&...\training&&...\........\cnTraining.exe&&...\........\mfTraining.exe&&...\........\unicharset_extractor.exe&&...\........\wordlist2dawg.exe&&...\vssver2.scc&&...\wss_reg.reg&&OcrFilt&&.......\FiltReg.Hxx&&.......\IFiltTst.Ini&&.......\Makefile&&.......\OcrFilt.cxx&&.......\OcrFilt.Def&&.......\OcrFilt.Dsp&&.......\OcrFilt.hxx&&.......\OcrFilt.sln&&.......\OcrFilt.vcproj&&bin\OcrFilt.dll
Please Comment: []&[]&[]&[]&[]&[]
&Downloaders recently:
&Search in more than 1820000 codes/documents:
&[] - This is the latest version of the open source OCR software TESSERACT. In support of English and other languages.
&[] - A set of alphanumeric character recognition and segmentation of the OCR, C++ written code neat and complete notes and a set of alphanumeric characterOCR SDK开发包超高识别率
OCR SDK开发包起源历史：
OCR即光学字符识别，有文字识别，文档识别等俗称。OCR起源于国外，在国家863计划下，正式进入清华大学智能图文实验室。包括现在网上各种存在形式的源码以及1992年成立到现在把OCR经营的风生水起的文通科技，在OCR界取得一定的成就。是国内知名厂商。
简单和周围朋友聊聊OCR SDK开发包，十有八九的朋友都难于理解，但是和周围软件界朋友聊起，却也觉得是比较新鲜的玩意。毫无疑问的说从OCR过渡到生物识别技术，目前以人脸识别最常见，可是在中国却并未大火，在印度却烧起了一整人脸识别热火。毋庸置疑，在未来两年内，人脸识别一定可以突破中国市场，迎来生物识别的又一个春天。文通科技作为深耕OCR的业内人士，当然也把眼光放得比较长远，利用OCR识别技术不断向人脸识别过渡。未来的金融行业，包括ATM取钱，未来的考勤，未来的机场货币兑换、通关，火车站自助通关，港澳通关等等，人脸识别结合ATM，人脸识别结合人行通道闸，人脸识别将会结合越来越多的硬件设备。前段时间刚看奔跑吧兄弟第五季第1集中有个片段是这样的，义乌小商品展会中，四组成员分别找到自己要找的外国商人，然后算出交易的数量，算出之后在跑到人群中寻找外国商人，因为人脸极其相似，这时候有个画面正好就是人脸识别。哈哈，热巴就这样为人脸识别系统代言了！！！
但是业外人事包括政府机关对OCR SDK开发包和人脸识别SDK都是了解的少之又少。就算xx公司，xx办公室，xx局，xx社对应的系统需要OCR SDK开发包，没有专业的人讲解软件知识，很难再大众脑海中形成记忆。除非一些接触到项目的相关技术人员。
上面介绍的人脸识别是题外话，现在切入主题，采用简短的文字介绍OCR SDK开发包的功能，希望大家能够对此有更全面的认识。不得不说对纸质档案的扫描工作已经进行到如火如荼的地步，然而扫描所产生的电子档案实际上只是以图片的形式存在着，如PDF。想要实现真正意义上的档案自动化，需要加入识别模块，对图片上的文字进行定位识别读取在以多种形式的输出调用，这里主要可以输出rtf,txt,双重PDF为主要输出格式。换句话说，计算机是不会具备人脑辨认图片文字的能力，只会粗略读取档案的外表，用户通过计算机浏览档案图片的原貌，却不能对内容进行引用、检索等其他调用操作。无疑，这个问题对电子档案利用工作造成了很大不便。但由于人工录入的低效率和高成本，使得人们不得不思考提取图片上的文字信息。若要得到文本形态的信息，档案数字化工作将会更加有效和彻底，而OCR识别技术的应用正好可以解决当前的疑虑。虽然该技术可以解决市场大部分的文字识别难题，支持多种语言识别，简体中文、繁体中文、英文、汉字、韩文、日文以及少数民族语言。由于各种因素的综合影响下，识别率是不可能达到100%。就难繁体字来说，古文中很对繁体汉字是不常见的，导致识别的字库找不到与其对应的汉字，就会导致失误，而我们技术能做的是不断优化，不断提高识别率。软件支持校对，比起大批量手工录入，其出错率要小得多。节省了大量人力资源，优化了资源配置，使人员分配于更加有意义的工作。
下文着重讲解OCR SDK开发包的工作原理。
主要工作流程为：①影像输入 ②影像前处理③文字特征抽取④比对识别⑤人工校正⑥输出保存。虽然，一张图像真正用于软件识别的时间不到一秒，但前期和后期的加工处理不容小觑，各个环节往往决定了最后软件的识别率。而后期人工校正环节，则是保证工作质量的最直接也是最有效的环节。翻阅了一些资料，按照国际通行的打字速度评级标准，即使是专业人员，每分钟也仅能输入150～240个字，而采用OCR技术，算上前后期的处理各个环节所花的时间，其速度也是前者好几倍。相当于OCR是档案电子机器手，不休不止可以连续工作。现在物价人工这么高，这种账相信每个精明的老板都会算的很清楚！
目前而言，针对于档案系统，最常见的是文档识别OCR SDK开发包。文档识别与理解是指将纸质文档扫描输入计算机后,对所得扫描位图加以分析、识别并生建其逻辑内容的过程.重建的内容即为电子文档。电子文档在保存、检索、修改以及数据交换等方面具有纸质文档不可比拟的优点,将纸质文档转化为了电子文档,是许多专业领域需要经历的过程.因此,文档识别与理解技术已经成为一个研究热点,具有较高的应用价值。该种识别主要应用于学习工作等一些关于文档处理的办公领域，可以快速高效利用OCR技术对文案文档、证书、票据、病历、说明书、简历、合同等各类纸质文档进行识别，另外可以通过云端技术将识别后的内容以及图像上传到服务器进行备份储存，并具备方便的检索功能，可以使用户简单方便的找到备份的内容。
这里有个关于OCR SDK开发包的误区需要提出来解释一下：
1、开源的OCR好用吗？　
国内主要使用中文简体的OCR SDK开发包，很多人不知道有专业公司开发维护的ocr-sdk开发包技术，是支持简繁体互换识别、中英混排识别、日文、韩文、英德法俄意大利文、藏文、维文识别的；文通是专门从事OCR 相关学术研究的，源于清华，服务全球是他的宗旨。SDK开发包就支持上述语种的识别支持，汉王只有中文和英文识别，毕竟术业有专攻，社会及技术的不断发展也是靠细致化的社会分工来不断推进的。你需要字符识别技术，就还是根据自身情况坐下权衡取舍，免费开源or商业版本？开源的弊端如不稳定性、识别率不高、系统安全性差等等不胜枚举。商业版本能更好的为企业服务，保证数据的安全性以及识别率会达到99点多，满足大量企业的各种需求！
2、市场上存在的开源OCR有哪些，能否详细列举一条
这里主要介绍tesseract。好多做图像OCR识别的公司技术人员希望公司自己能有一套OCR识别技术，于是首先想到的是寻找免费开源的OCR SDK开发包源码来进行二次调用、引用、开发、优化、完善。很多OCR技术小白找到了凑合能用tesseract，做了下简单的集成开发，就沾沾自喜的认为自己有多牛逼的ocr技术了，还去忽悠公司领导说识别率非常高，非常好用；其实但凡是负责人的领导自己正经一测试，就会很快发现问题！我们来发掘一下tesseract的历史，tesseract是过去惠普开发的，但HP技术毕竟能力有限，无法给客户很好的提供服务，于是就把tesseract开源了，以搅乱市场，后来被google收购。
3、市场上做的较成熟的OCR SDK开发包厂家有哪些？哪家是群众呼声最高的？
前前过后后接触过各种客户，包括这种OCR群，遇上各种ocr技术小白，逼格高、不谦虚、自认专家的情况也确实不少。主要的言论均为：网上大把开源OCR开发包，现在谁还会花钱购买啊，能不用钱解决都不用钱了！当然也有另一类研究生刚刚毕业的则显得谦虚很多，说上大学的时候做过ocr方面的论文和开发项目，大概了解用过，开源的OCR SDK确实识别率无法达到应用层级也有很多其他商用的OCR厂商，是技术上有优势的，是要靠OCR开发包盈利的，不会开源，比如文通OCR、汉王ocr。OCR是一个老的技术，今天这个开源的OCR开发包当年并不是做的最好的，相反是做的最差的。没有商业化的模式和利益，技术怎么可能向前不断发展，技术发展是要靠人才的，而人才是非常昂贵的。
前面讲到文通科技和汉王，大家对文通的认可是勤勤恳恳，OCR界劳模，技术服务均达到一个较高水平，在软件界很受欢迎。大家对汉王的评价是，态度吊炸天，谁稀罕你的技术，聊个天能把尾巴翘上天。文通汉王PK
下图列举了两种档案管理系统，毫不夸张的说档案管理系统不断的支撑着OCR SDK，它的引入已然成为档案系统必不可少的一员，扮演着越来越重要的角色。
文档识别OCR SDK开发包界面截图如下：
以OCR SDK开发包的形式，提供API接口，集成到各种档案系统，可以部署到服务器识别，供pc端，web端，H5调用，也支持pc端，以电子狗的形式使用。调用方式支持DLL,OCX控件，支持多种计算机语言，c语言，c++，c#,java等等。现在熟悉的OCR SDK开发包支持服务器端的识别，也支持移动端的识别，Windows、Linux、Android、iOS四平台均有相应的SDK开发包，提供对应的API接口。
如需更详细的了解OCR SDK开发包的内容，可以上公司官网北京文通科技有限公司了解相关介绍，产品里边的SDK，找到对应我的联系方式，吴小姐136****2040，与我详聊，期待项目上的合作，谢谢支持！
责任编辑：
声明：本文由入驻搜狐号的作者撰写，除搜狐官方账号外，观点仅代表作者本人，不代表搜狐立场。
今日搜狐热点}

我爱游戏网