马健张鸣的书有哪些为什么买不到

籍扫描成高清pdf的方法:

手机 和。一块玻璃就行 。玻璃压着纸面拍摄,完全无视纸面的扭曲,,,和平板扫描仪相同的平整度哈。。。翻页速度却秒杀平板扫描。。。

先扫描单页再扫描双页,最后合并一下。 拍摄速度快到停不下来。。。

手机用蓝牙遥控器,这样可以专心翻页。 拍摄速度快到飞。。。

手机不要用广角端,用长焦端镜头畸变小。数码变焦不算。

外加一个鞋盒子(或纸箱子)(如要求高可制作金属v型架)。。。 能实现超快速大概就是你能翻页多块就能拍多块。

截至目前(2021.7月)教程字数一万三千,我更新了一年多,还会一直更新,因为各家的技术每年都在进步,从我的ocr系统,到马健老师的cep系统。

特别是wmjordan老师的pdf补丁丁,已经更新了十年了。。还在持续更新。。

还有扫描的硬件方案,一年来都有重大更新,估计不到五万字停不下来哈哈。。

  1. 实现批量优化扫描出来的图片。
  2. 实现批量优化他人制作的不清晰的扫描PDF
  3. 把网上下载的不清晰的pdf识别成清晰的文字版pdf或者txt(自制ocr软件下载见附件5)

0、扫描套装DIY示意图:

5、鞋盒子 玻璃 外观 方案硬件更新等

-----5.6 2.0升级版灯光(选配,可以不用)

-----5.7灯光升级方案2(选配,较为推荐,但也可以不用)

6、遇到的问题:镜面反光

-----6.1 方案二 双偏振镜解决反光

-----7、1黑白模式,放大 ,高斯模糊放大:

-----7、2启用抖动算法:

8、comicenhancer pro4设置参数的保存和复用以及批量执行最终优化(有视频教程)

10、pdf补丁丁的使用

-----2、奇偶页图片合并

13、Pdf导出图片 Pdf补丁丁(有视频教程)

17、关于奇偶页改名方法(最终)(有视频教程)

-----18.3 印影版扫描书籍和影印版ocr处理后的画质对比

19、关于馈纸式扫描仪

20、关于书籍扫描技术路线的汇总

21、关于私人图书馆建设

附3:真实制作案例:百度网盘分享真实制作成果pdf。

附4:所有用到的工具的下载:

附件5:自制ocr软件的教程和下载地址

附件6:ReNamer Lite 奇偶页文件改名工具下载地址

附件8:pdf和ocr辅助工具四件套 下载地址


0、扫描套装DIY示意图:

scan-tailor处理后,最终效果非常好,印刷级,秒杀所有后期软件。详细用法自己体会学习。


(还有一个效果一样好:comicenhancerpro4 现在我日常用这个较多,速度比st快很多,2021年最新版是5.05,增加了非常多的新功能,在这里给软件作者马老师点个赞!)

Pdf扫描版转图片(无损):pdf补丁丁

pdf目录书签半自动制作:pdf补丁丁


Pdf书签目录导入导出:pdf补丁丁

扫描版pdf无损导出成图片:pdf补丁丁

Pdf分割,合并:pdf补丁丁 。 只有这个软件能够合并分割完毕后还能保留原有的书签目录。其他软件都会丢失。


结论:我的方案速度秒杀一切平板扫描仪,传统高拍仪;扫描质量还是印刷级。


重大更新:黑白后期方法增加抖动算法,扫描效果比原先好了一个级别。! 详情见本文的comicenhancerpro4部分的具体更新的内容。

另 评论区有位朋友前期拍摄中好像用的无损灰度扫描,臊出来效果超级好,这提醒了我要实现拍摄的无损化,最好利用手机的raw图片或者dng图片格式无损拍摄。jpg损耗较大。


有没有秒杀的效果。。。 完全是数字化文字的边缘

经过反复测试 comicenhancerpro4也能达到这个效果,自由度更大,,速度更快。。。。 大家选择合适自己的来用。纯文本两个软件都好用,图文混排我推荐comic ,下文会讲原因。


注意:经过实践,这种效果没法进一步优化,因为拍出了大量阴影。解决方法请继续看下文。。

5、鞋盒子 玻璃 外观

思考和更新: 这套方案对于页数超过300 400页的书籍,拍出来可能会导致页面切边麻烦,因为翻页后拍照平面变了,文字会逐渐变大或者变小。

正好手头有一个微距摄影的微动平台,准备手机或者书籍加到这个平台上,这样整体实现翻页厚度补偿,使得拍照平面到传感器的焦距稳定在一定公差范围内(几个毫米)

可以补偿16cm 足够用

比如一本250页的书也就15mm 厚度。 换算一下 , 每12页调一下微动按钮就行,也就是1mm .整本书也就调10次搞定。500页的书调20次左右。

我买的便宜微动云台,模糊控制吧。。有米的买步进云台,精确一次一mm

今天同时制作的一个升级版不锈钢鞋盒 哈哈再也不用纸鞋盒了!

经过一年,我目前正在升级自己的扫描仪套件,手机升级为相机,增加电脑控制相机拍摄,增加脚踏板拍摄,升级鞋盒子为不锈钢书架。等等。。

作为一般用户 可以继续用手机,鞋盒子。,如果感觉手机画质不满足自己要求,鞋盒子不稳当,可以看完这个第五章内容,否则跳过。

如果是纯懒人并且不排斥拆书,(我大多数情况下也是懒人)建议看我下文的买个富士通6135zla扫描仪拆书扫描,喝着茶就能完成书籍制作。(需要拆书)

2.0版方案设备清单:

微动云台 大于30mm行程

神牛ct-16通用型引闪器

两个led光源辅助对焦

5.2 2.0升级版之相机选择和设置

家里正好有一台吃灰十几年的佳能450D相机,所以把他替代了手机作为扫描仪使用。

这台相机为apsc画幅,比苹果手机传感器大得多的多。。。

测试了一张照片(原始jpg,未后期处理),效果非常不错,比iphone6sp画质好的多!扎实的画质!

镜头我选用的佳能小痰盂 50mm f1.8 这个放在450D 正好实现了75mm等效焦距,不会出现手机端那种广角镜头的桶形畸变。

增加一个微动云台 进行翻页的补偿焦距

这个样子,黑鼠标垫(背景幕布)还没到货,其余全部调试完成了!

相机接上快门线,接上引闪器。

灯光目前两套方案,一个是沿用初始版本灯光方案,还有一个是双偏振镜方案,都详见后文。

相机的设置在电脑端进行,详见5.3教程。

买一根mini usb线就能链接电脑了!

又买了一个usb踏板,连接电脑,实现脚操控快门!

5.3 电脑端操控相机之 EOS utility软件 设置,操作。(实测发现这个方法无法解决450d的自动对焦问题,最后改用了快门线方案)

这时候相机打开,usb线保持链接电脑

电脑识别出了我们的相机 kiss x2(450D)

点击第三项,“相机设定,遥控拍摄”

这时候可以看到设置界面了:

可以操作和设置相机,拍照。

0 相机设置为m挡 镜头设置为m挡 打开灯光

图框1 设置快门时间,根据左侧的实时观察窗口查看亮度来进行相应的快门时间设置,设置快门速度,

点击“实时显示拍摄” 就能观察到亮度和对焦情况

图框2 设置光圈为f11 -f5.6 千万别用大光圈,大光圈非中央区域会模糊虚化。

图框3 设置白平衡 荧光灯

图框4 iso设置为400-500 画质兼顾速度 有强光源直接可撸100

图框5 图像大小设置为L 最大。

图框6 重新设置1 调整曝光时间。 80分之一秒-500分之一秒 (我的桌子不稳,所以提高快门速度 如果你在石头墩子上扫描 可以设置8分之一秒也行) 闪光灯可以万年200分之一秒,,

我目前的参数:f5.0光圈 二百分之一秒快门 iso400

我的桌子和灯太烂了 你们可以上好灯然后f5.6-f11

7 点击图框6处 这个圆形按钮就是拍照键,我们可以测试一张,不合适再微调各个参数。

查看一下,如果合适,我们就能进行后续调整了。

不合适和别的页重拍就行。

5.4 超白玻璃升级改造

上图我们会发现,左侧有一部分左侧页面我们不想要,所以需要升级超白玻璃。

超白玻璃左侧增加一块硬纸板,处置贴到超白玻璃左侧边缘。

这样,就可以遮挡住左侧不需要的页面和文字。

最后,硬纸板贴一块黑色软布,就摸出黑色背景效果。

最近找朋友做了一个不锈钢v型架子,这下再也不用那个软绵绵的鞋盒子了哈哈!

家里装修剩下两块a4大小的木板,正好作为底板贴到了架子上,形成了v型台面。

最后,v型台面贴上黑色幕布,完成北京黑色化。

这样,除了书籍正文,其他部位都是黑色的背景了,后期处理方便了很多!

用瓦楞纸板裁切成大约280mm*420mm的纸版,两片。

把纯黑色布面鼠标垫裁切相同的尺寸,两篇。

用手工胶水把鼠标垫粘到瓦楞纸上。

放到v型书架的两个面板上,热熔胶粘几个点固定住即可。

这时候拍书,背景都是一片漆黑,方便cep的后期裁切。

目前用的小黑垫子 将来会扩大一倍

使用一点摄影黑幕布,粘到超白玻璃书籍中缝这一边。

这样,拍奇数页的时候,黑布会遮挡住偶数页,拍偶数页的时候,黑布会遮挡奇数页,完美解决裁切问题!

5.6 灯光升级(选配,可以不用)

详见6.1的双偏振镜方案。

5.7灯光升级方案2(选配,较为推荐,但也可以不用)

同旧方案一样的角度,挂在书的上方,但是撤掉了led灯,换成了sp660ii闪光灯,使用无限引闪器进行同步曝光。

首先架设好灯架子,这里使用了两个。然后把闪光灯装好电池,平躺在两根架子上,灯朝向书面方向。

用绳子轻轻地把闪光灯固定在两根架子上。

相机热靴处插入引闪器发射端,调整1,2号频道开关到下方。闪光灯尾部热靴接口插入引闪器接收端,调整1,2号频道开关到下方(同发射端同步),打开闪光灯,引闪器两端的开关。

相机依然设置为手动模式m档,镜头设置为自动对焦档。这里注意的是,eos utility软件好像不能触发闪光灯,所以我们使用脱机模式,拔掉连接电脑的数据线,接上450D相机的快门线。

闪光灯设置为32分之一的光照亮度,焦距设置为24mm,因为闪光灯就在书页上方很近,不需要长焦,太过于聚集。闪光灯模式设置为m档。

花了十几元买了一条,拿来插上就能用,很方便!

使用cannon utility软件时无法使用快门和快门线,只能二选一。最终用了这个方案。因为对焦方便。翻一页,半按快门对焦,然后按下去拍射。 很方便。

观察画面:通常我拍一两张测试页,然后回放一下,进行微调即可。

5.9 450D相机使用参数(还在不断优化中):

镜头自动对焦(快门线半按),

相机文件精度选择L(也就是jpg最佳最大画质,不要选L+RAW 这里扫描书籍不需要RAW,只有在扫描画册时候,选择RAW),

镜头50mm佳能小痰盂,

用的闪光灯高挂方案时候:

闪光灯强度十六分之一,

其他灯全部关闭,只开一个3w的小灯辅助相机完成对焦。

使用光学取景器调整好画面中书页的位置,我们就可以试拍了!拍摄的时候,轻按快门线快门按钮,滴的一声,对角完毕,然后全部按下,完成拍摄,照片储存在存储卡上。

连接电脑,手动上传照片到电脑,然后开始后期处理。。

6、遇到的问题:镜面反光

是的我也遇到这个问题了 我想了一些对策

更新:基本解决我的8mm超白玻璃镜面反光问题

1 增加灯光亮度 我原先一盏灯,现在外挂两盏灯 一共三盏灯 解决局部阴影

2 抬高灯光高度 原先是侧光 很近 这样阴影太多,直射无阴影但是有反光,综合一下,抬高光源高度,我这个纸面中心和灯光中心距离大概42cm垂直高度 太高太低太偏太正都不理想。

原理大概就是使用面光源好于局部光源。

光源太高会出现一种新的反光,

光源太低纸面有大面积阴影,

光源太正灯光的反光会跑到纸面,

光源太偏纸面会有更多阴影。

最终调试大概是这种角度:

这个是原始的手机拍摄效果,灯光改善以后效果非常好,纸面部分的反光和阴影都不存在了。

遇到的问题2:梯形失真

更换手机的长焦镜头解决。默认28mm镜头除了不平行的梯形失真还有镜头本身的桶形失真。 更换50mm等效长焦 或75mm镜头 搞定!

6.1 解决反光 双偏振镜()

经过一年多寻找,忽然今天在保富图b站官网找到了解决反光的方案。双偏振镜方案。

光源套上偏振镜,同时相机套上偏振镜,简直完美!

原理就是, 1 .把光源也转化为偏振光源。

2.偏振光经过物体后,首先反射回来的是偏振光,之后是漫反射光。偏振光被第二偏振镜阻挡在外边。

单偏振镜和双偏振镜方案最终效对比果如下:(差别太明显了!)

摄影灯架(旧方案的灯架升级用 非偏振镜方案用):

我选用的2米高的可伸缩灯架,随意调节高度,直到没有反光为止。

很多朋友反映scantailor太慢了,确实慢,所以这个备用的软件已经上升到主力软件了。。因为很快,快很多。。。而且能够切边,纠正倾斜,获得黑白tif,加粗,锐化,曲线,高斯模糊,等等。。。。。。

首先把扫描好的照片放到一个目录,

用comicenhancerpro4打开目录下的随机的一张照片,进行预调整:

调整缩放160% ,色彩设为黑白 ,高斯模糊0-1.4看情况毛边多就设置大一些,曲线中部往下拉一拉,gamma略微调大,,然后保存这个黑白的预设,以后可以重复调用。

勾选红线部位左侧,自动纠正倾斜,半自动切边。

右侧分为两个情况,红线为手选,然后绿色框自动在红线范围自动捕捉内容切割。实现了半自动化精准切边。

初学者这时候可以测试一下 ,软件左上角那一排快捷按钮第三个按钮就是批处理功能。

打开后设置输出格式为tif. dpi.设置dpi为600,设置输出目录为自定义一个目录名。

预调整功能是调一张就够,批处理是按照这个预调整参数处理整个目录所有照片。


重大更新:图像后期方法更新,画质比以前好了一个等级~!

更新动机:前一阵学习python,偶然间发现一本电子书《Python爬虫开发与项目实战》竟然比我用的后期处理方法的画质好了一个级别,一直感觉这方法对我就是个迷,怎么会有这种神画质!

这。。。这。。。这么干净的极致画质怎么实现的???心里曾经一万个问号!~!

经过酝酿好久,,今天终于研究通了!!原来comicenhancerpro4 中,已经预制了这种功能!!

他就是:黑白模式+抖动算法+usm锐化+高斯模糊+放大! 抖动和usm锐化是重点更新的内容

7、1 黑白模式,放大 ,高斯模糊放大:参照本教程上边的方法有讲述。

7、2 启用抖动算法:

什么是抖动算法?简单讲就是通过很小的点把复杂的jpg像素转化成相对简单的一种排列方式,节省存储空间,同时大大提高了锐度!这个算法还能图文混排, 图片不再让人反胃。 类似于素描+针式打印机的效果。我差点和她失之交臂!这个才是我的真爱!!

Comic官方文档关于抖动算法的解释:纯黑白图像的抖动,就是用不同密度的黑点来模拟不同的灰度。可以选择不同的抖动算法,实在不知道该选哪个就都试试: JJN:经典Floyd Stainberg算法的改进。相对于经典Floyd Stainberg算法,JJN算法更突出边界,因此对比度保持较好,而且不容易出现规则条纹。

参数面板中打开‘其他‘ 选项卡,选择‘彩色’按钮。

‘彩色设置’选项卡打开后,勾选‘抖动’

什么是usm锐化?简单说就是ps中优化图像中局部中的边缘清晰度的算法。我认为是ps中仅次于曲线的又一个神功能!我们的cmic软件竟然也有!我之前没注意哈。。差点错过真爱!!。。

Comic官方文档对usm锐化的解释:USM锐化 与Photoshop中的同名功能类似。与前面“锐化”、“调节”的区别是:锐化、调节对图像的每个像素都是公平的,逐个像素用3×3或5×5做卷积,因此在使文字、线条边缘更锐的同时,其他地方也可能会锐得出现麻点。而USM锐化一般只对文字、线条边缘有影响,对图像其他地方基本没有影响,因此现在的Photoshop教程中逐渐建议用USM锐化代替常规锐化。

设置usm锐化参数如图 ,你们实际设置中酌情设置。我这里是个参考值

来一组处理前后的直观对比:画质比单纯黑白模式又提升一个等级!!

按照一个网友的评价就是:画面干净整洁!实现了高级灰!

如果你是极客或者画质强迫症,不考虑文件大小,还有一招,就是 缩放

70%缩放 图文混合一页纸大概10-80k 一本书大概10m 画质为最普通

100%缩放 一页纸120k左右 一本书10-30MB 画质普通 普通人用这个足够了 或者120%也行

极客 强迫症请把缩放打到130-200% 画质666 就是文件体积大了一些

原始版面左右 就设置120-160%放大

原始版面左右 就设置170%放大 (日常使用)

原始版面小于 就设置190-200%放大

高斯锐化加一点点,饱和度加一点点。这俩就在高斯模糊那个界面。版comic版本是4.19

gamma可以多家加一点

对比度 亮度 加一点点就够。

图片的后期画质优化方法,可以告一段落了。

最近用了最新版的cep,作者马健老师真是强,单独开发了书籍制作界面,各种新特性,做书更方便了.

特性1.增加了单独的书籍制作界面,操作更集中,方便

特性2.增加了梯形校正功能。拍斜的书籍也能矫正回来!

特性3.曲面展平功能,不压玻璃板都有机会拍出不错的效果。

特性4 增加黑白文字功能,一键转黑白文字版

由于马老师自带详细教程,我就直接附件7上传了详细教程,这里暂时不细说。

未来可能上一个视频教程在这里。

7.7 漂白背景发灰发黄的pdf

网上下载的pdf和我们自己制作的pdf,有时候背景没处理过,发灰,发黄,可以这样进行漂白处理

第一步: pdf补丁丁把下载好的pdf扫描文件中每页图片解压出来。使用“提取图片”界面。

第二步:cep中使用我附件中的预设[wolf算法 纯文字],把书籍转化成纯黑白,这时候就漂白了。黑的地方更黑,白的地方更白。(针对纯文字的扫描pdf)

图文混排漂白的话,有点困难,需要画质上边做取舍。。目前最好的方案是:使用我的附件中的第五或者第六预设(带有ocr字样),进行轻度锐化加亮,然后使用pdfelement进行ocr。出来以后就是纯白界面背景。但是此方法必须要求扫描质量非常高,至少400dpi的分辨率质量。

纯图片就不需要漂白了,可以用cep进行gamma值,对比度,明暗等的极轻度加工。。

第三步:pdf补丁丁把漂白好的图片重新合并成pdf。完毕。

第四步:书签移植:源pdf有书签的话,用pdf补丁丁导出源pdf的书签文件xml格式,再把书签文件导入书签到漂白pdf中。

cep4 和cep5的漂白背景方法汇总:

方法1 通道---通道混合---灰度

方法2 通道---通道混合---乌贼漂白

方法3 扫描书籍处理---色阶---白色吸管---发黄发蓝的背景处单击一次---力度不够再附近单击一两次背景

方法4 扫描书籍处理---色阶---自动漂白1(2,3,4)

方法5 扫描书籍处理---黑白文字



8、设置的保存和复用:

修改一次就可以保存设置,并且无限次调用。

复用别人设定好的参数:

把我附录2中的四个参数全部拷贝进来,或者拷贝其中的任意若干个。

参数名用方括号括起来。

更简单一点 ,附录4有我制作好的comicenhancerpro软件包,直接用那个就行。

cep调入我预设的参数视频教程:

重复的使用设置:点 调入- 选择一个配置-确定 然后进行图片的处理。

批量处理目标图片:调入一个设置--主界面上边工具栏中点击左上角第三个图表--新建一个存放新文件的\out目录,dpi设置为600,其余不变(调用了你调入的设置)--检查输出文件名是否是tif,不是的话改成tif--右上角点击“全部转换”

好了 喝半杯咖啡去吧。。(很快的。。)

cep批处理扫描图片教程:


9、扫描的书籍优化效果展示

经过实测,这种底子扎实的原始扫描,半径设置为60左右效果很好。


10、pdf补丁丁的使用

点击左上角“修改常用工具栏”

如此只勾选:合并文件 ,提取图片,导出或导入信息文件

10.2、奇偶页图片合并(觉得本方法复杂的 跳过本条, 参考条目17 最终奇偶页合并方法 很简单)

点“提取图片”把奇数页pdf放入框内。文件名掩码设置为0000A

同理,偶数pdf同样操作,掩码设置为0000B。

把他们放入一个文件夹。

然后打开合并页,拖入制作好的XXXXA 和XXXXB文件进行合并新的pdf。

打开“合并文件”,把所有的tif,或者jpg拖入框内,然后进行合并。

如果你要修改pdf,保留原pdf已经制作好的书签,这时可以使用:

点击“导出或导入信息文件”,把需要导出书签的pdf拖入框内,“pdf信息文件”选一个文件夹名来导出xml格式或者txt格式的书签信息,点击左下角“导出信息文件”。这里推荐导出为txt文件,因为可以在excel里快速编辑书签。

当你优化完pdf文件,或者优化完书签,导入回pdf:

“pdf信息文件”选择修改好的书签,选择:“输出pdf文件”选择一个文件目录,点击右下角:"生成目标文件",生成含有书签的新pdf。

10.6、无损提取pdf中的图片

用cep修改优化别人的pdf时使用。

打开pdf补丁丁--点击“提取图片”--拖动pdf到原始pdf文件 这个框框中--选择输出图片位置--点击“提取图片”

如果只想提取指定页面,在页码范围中写入 比如“1,2,3,4-10,15-20”等等。


除了pdf补丁丁之外还可以用如下两款软件实现奇偶页混合:

奇偶页混合工具:pdftk,(有点复杂 详见条目17最终方法)

我们快速拍照后行成两个文件 一个是奇数页.pdf 一个是偶数页.pdf

用pdftk开始混合奇偶页:

奇偶页合并工具: 文件批量改名(较简单) (本方法还是有点复杂 详见条目17 最终方法)

,然后用pdf补丁丁合并。

最终版:详见条目17.(最终使用本方法)


我追求速度时 都是用的comic enhancer pro 同样的画质 比scantailor处理速度 要快很多倍,使用纯黑白模式+曲线+高斯模糊 基本上能达到scantailor的画质 ,只是没有scantailor,智能裁剪等功能,他有半自动裁剪功能。可以用他来日常使用。

注意:要保存成tif格式,还有就是多使用他的批量处理+模板功能,图片的处理参数设置一次就行,然后保存起来单独调用。批处理时也能调用。


支持无损导出扫描版图片

别人做好的pdf感觉扫描的模糊,可以用它导出成图片,然后用scantailor 或者comicenhancerpro来优化。我其实更多的是优化别人的pdf。知乎6000万活跃用户,如果每人制作一本书,优化一本书,那就太好了。目前的现状还是大部分扫描版pdf还是太模糊。

飞速合成,如果有书签文件,还能连同书签一块儿合成带书签目录的pdf.


完成了扫描pdf-txt-文字pdf的批量转换。稍后发布在github。

变更发布计划,从开源变为闭源,已完成的版本会发布在本贴和我的其他知乎主题帖子中。预计时间2个月内,敬请关注。。。

已经完成了累计十个版本更新,新的文字版pdf可以保留原文件的书签了,匹配了ipad iphone 电纸书 三种版式。

人工智能判断文章各个标题,自动生成书签。二级书签深度。

人工智能判断扫描版文字大小,用来转换后排版。

双栏电子书的ocr自动识别

制作带文字层的双层pdf

Pdf补丁丁和cep是两张皮,用多了还是不方便。。。还是不够全自动化,于是我决定开发自己的全自动扫描书籍优化软件,轻轻一拖动,自动生成优化好的扫描pdf。

计划的功能:自动导出图片,自动放大图片,自动黑白二值化,自动加粗,自动边缘锐化,自动拷贝书签,自动合并pdf等等。

总计还需要30-40次升级。

用了两天写了一个批量ocr的程序,这下扫描到ocr一条龙了!

百度人工智能分为高精度和通用低精度版,高精度我就不说了 识别的 非常完美,低精度识别效果也还是不错的,大于99%识别率。关键是赠送试验次使用,很多。

使用时可以高精度为主,每天限制500页,超出部分用低精度补全。一天高精度识别制作1-2本书我认为自用够用了。

下图为低精度识别效果:


上一节介绍了百度ocr 本节介绍另外一种ocr形式 更方便。

百度ocr自动识别空格 段落 ,但仅此而已。无其他格式。所以 现在流行的是,用acrobat 2020版软件,在扫描版基础上利用ocr制作一层文本层 可以选中,复制,而且与底层图片的文本一一对应,而且可以关键字全文搜索。

经过实测,acrobat比abbyy识别率高不少,所有体检用这款,双层pdf制作接近完美了!

所以, 个人使用推荐双层pdf这种模式,一层扫描图,一层文本。如果自己排版ocr后的纯文本 那叫一个痛苦。。

功能1:用来搜索文本 文本与扫描件一一对应文字位置。

注意:个别文件双层pdf制作后有重影,文字层不透明,原因未知。。正在研究原因。。

17、关于奇偶页文件名改名

很多小伙伴反应之前的奇偶页改名方法太晦涩和复杂,我于是找了一个简单的方法:

首先把我们扫描的文件装在两个文件夹,一个存放奇数页图片,一个存放偶数页图片。他们的初始顺序都是类似001 002 003 。。。。

第二步:拖动奇数页所有文件(已经排序好)到软件下身边的框内。(圈1处)

点击圈2处 添加改名规则。

第三步:选择“序列化”, 增量设为2, 勾选“替换当前名称”,勾选“填充0来补足长度” 设为3 或者4,5都行 根据你图片数量定。你有几百页就写3 几千页就选4

选好后单机“添加规则”

第四步:可以预览到改名后的文件名了,实现了奇数页文件名和页数的一一对应。

第六步:按照以上五步 把偶数页文件夹页全部改名,唯一不同的是起始值是2,其他设置都相同。

第七步:两个文件夹的图片都拷贝到一个文件夹内,即可完成改名流程。

renamer奇偶改名合并视频教程:

一以前一直用abbyy来ocr,貌似无法批量ocr。后来改成自己的ocr调用百度Api。达到了不错的效果。

最近又使用了一款Ocr软件。 他使用的是abbyy的引擎。感觉已经超越了abbyy本身的效果和易用性。

使用方法很简单,打开软件,打开批量功能,点ocr标签。

找到你需要ocr的pdf文件。 可以多次的拖入他这个框框里。点击开始就行啥也不需要设置。。可以挂机喝茶去了。

由于使用的是abbyy的引擎,所以必须要使用比较清晰的pdf格式这就要求源文件扫描的必须得非常扎实,文字细节必须得丰富。。那种模糊的识别率还是不是很高。

但是识别清晰扎实的pdf的时候,识别率还是非常可观的 99%以上也是能达到的。。而且使用的排版算法。 排版就是和原pdf一模一样。排版是近乎于完美。

所所以我这里强烈推荐。

当然我自创的那套ocr系统,我也是强烈推荐。

18.1 如何获得高质量OCR效果

ocr技术很先进,但也是架不住遇到很多大坑。所以为了提高ocr质量做了一番总结:

1、前期拍摄非常扎实,对焦清晰,形变很小,光线均匀,光线精确控制。最好的是1-5MB每页,这样每个文字包含的相对丰富的细节方便后期处理。

如果嫌麻烦,可以使用零边距扫描仪老老实实一张一张的撸,出来就能是成品pdf,不需要太多的后期处理。。

2、cep处理到位,如:梯形失真,曲面失真的处理。扫描仪的话就不需要这么麻烦,直接处成品。

3、cep专门优化:参见我相关的附件的第五个,第六个cep参数,专门针对ocr做的优化:曲线上拉,gamma增粗,高斯锐化(针对ocr,这个参数我发现非常重要),图像变大,亮度增加,对比度增加。

做完这些,你会发现,原先的识别率只有90%,忽然增加到了99%甚至99.99%(实测好几本书)

cep处理后再用万兴PDF ocr的效果(我的第五个cep参数预设):

效果有没有同90%上升到99%呢 甚至99.9% 诶呦不错!

2021年7月 新购一台富士通老式馈纸扫描仪6135zla,实测ocr效果已经达到了99.9%! 四百元的小玩意儿,但是双面ccd扫描,画质对于ocr够用了!

如果用平板扫描仪画质更好那更不用说了!

18.2 如何减小识别后的pdf体积

2021.07刚买了一台溃纸式扫描仪,试着扫了一本图片很多的书dfdf籍,用的1200dpi最高画质,但是文件1.7Gb 。。。500页

超过200mb的文件,pdfelement会经常识别错误,无奈我拆分成了二三十个小pdf来批量ocr,然后合并。竟意外发现了减小体积的方法。。

识别后得得每一个小pdf都有七八十兆,大家也许会想,几十个合并后不还是一个GB多大小吗, 可神奇的是,几十个pdf文件合并后,竟然只有100兆左右,压缩率帅气的达到了90%多!

也许是pdf合并时精简了同类参数把,不过这种无损压缩真是非常实用!

18.3 印影版扫描书籍和影印版+ocr处理后的画质对比:

很多朋友会问,那到底用那种方式呢,我做一个对比:

这个是馈纸式扫描仪火力全开画质下的原图,很扎实,但是经不住放大。需要cep后续处理成纯黑白,但是纯黑白会丢失右下角图片的画质,变为不可用。

这样,文字会变清晰,同时保留排版,保留右下角的原画质的图片。放大后文字依然清晰。

虽然扎实画质,但是变模糊了。即使cep二值化处理后,还是会留下很多锯齿,但是比这个清晰,且不如ocr后的文字效果。

放大后的OCR处理的文字:

随便放大哈。还是清晰。

结论:如果书籍没有艺术字体和数学公式,我这里强烈推荐把影印版的书籍做ocr处理。pdfelement的ocr功能,可以说是我这种强迫症书虫的终极武器了!

18.4 pdf和ocr辅助工具四件套 (本人原创)

在进行书籍优化和使用ocr的过程中,虽然有pdf补丁丁和cep的加持,能做到每天ocr100本书了,但是他们的批处理功能操作效率并未做到极致,我认为还可以挖掘操作上的效率。

所以,我做了一套辅助工具,进一步发掘了pdf制作和ocr制作的批处理效率,每天做500-10000本书籍不再是梦。

实现了万兴PDF的全流程批量化操作:

1 号工具:分类pdf。

优化pdf之前,我会一本一本的查看pdf,将pdf书籍分类成:彩色和灰度书籍,二值化纯黑白书籍,两大类。因为cep处理这两类书籍时候,优化参数完全不同,无法共存一个文件夹批处理。需要两个文件夹。

忙碌了三四小时,终于把当天需要优化处理的pdf分类完成,但是浪费了半天工作时间。

有了这个工具,几分钟就分类完成,效率提高了几十上百倍。酸爽!

新建一个目录,挑选需要优化或者ocr的书籍pdf到这一个目录。

一般攒够一百本-两百本开始处理(批处理嘛,书越多越好)

处理完毕,自动分类成jpg目录和png目录,jpg目录存放彩色书籍和灰度书籍,png目录存放二值化纯黑白书籍。textPDF目录存放文字版pdf。

2号工具 无损批量提取图片

根据cep批处理特性,我们需要解压在一个目录中一次性优化,(比如一百多本彩色书籍放入一个目录,一百多本纯黑白书籍放入一个目录)

这个工具会无损提取文件夹中所有pdf中的图片到d盘pdfpicsxxx目录,每次自动搞一个序号。

我的使用习惯是每次提取一百多本书,提取的书籍图片大概是5-10万页,cep一次性进行优化处理。。

首先在1号工具处理完毕的目录(比如jpeg目录 png目录)中,都拷入2号工具。

然后分别在每个文件夹中双击2号工具,会自动运行。每个文件夹可以同时进行互不影响。

等几十分钟--几个小时,每本书的图片就提取出来了。

3号工具 分卷合并图片

无损 提取图片后,每个目录中有大约5-20万张图,使用上文教程中的cep进行批量处理优化,这文件夹打开一个cep程序,同样支持多开不冲突。

拷贝3号工具 ”分卷合并图片 ”到cep处理完的图片目录,双击进行合并。20页合并为一个pdf。为什么要20页,是因为pdfelement进行ocr的时候,大文件会报错,小文件不会报错。

这时候所有分卷pdf拖动到pdfelement进行ocr处理(不ocr的用户可以跳过此步)

4 号工具 书籍合并到一个文件夹

接上道工序,拷贝4号工具到这个优化合并pdf完成或ocr完成的目录,双击运行。

同一本书的分卷pdf会移动到同一个文件夹

这时候,用pdf补丁丁批量合并功能,合并成最终书籍。

操作:选中所有的书籍目录,比如一百本书的一百个目录,拖动到pdf补丁丁的合并pdf功能区域界面中。

勾选左下方:"顶层目录个并为一个pdf"

等一会儿,全部处理完成。

这四个工具目的是提高效率,所以一次性处理尽可能多的文件,越多效率越高。

我个人目前一次性处理200-400本书,优化和ocr都做。

多个文件夹可以分别拷贝同时运行,进一步提升效率。

二值化的pdf书籍随后附件2和附件4中会有专门的二次优化参数文件提供。

19、关于馈纸式扫描仪

2021.7 最近收拾家里的书籍,整整四箱子,只有十几本曾经做过电子化,纸版阅读还是不方便。于是我想把全部书籍电子化。算了一下时间,如果用v型书架方案,可以拍到腰酸背痛海枯石烂了。。。

于是买了一台馈纸式扫描仪,加速一下。

19.1 馈纸式扫描仪优点

速度快。双面同时扫描,一分钟20-40张,也就是40-80页的速度。

大批量。开机无需预热,可以手动添加扫描,形成多合一的同一批次整体任务。

Twain协议。电脑上随意控制打印机参数,比如锐化,白边,色彩模式等等。非常自由化和集成化。

版式位移公差特别小。由于是裁切好后放入送纸框内,而且扫描探头工作是在机内进行,所以所有的页面都是固定的位置,固定的参数扫描,无v型书架方案那种光源,位移等干扰,也没有平板扫描仪的页面位移干扰。每页的扫描的的位置公差可以忽略不计。很好的补充了v型书架方案的不足。

自带软件。像中晶,富士通,柯达这些专业大厂,软件做的非常易用,多功能,自动化,同硬件高度匹配,软件的品控也超越很多第三方小公司作品。我用着很舒适!

体积小重量轻。比如我买的富士通6135zla这款,非常小巧,放在家里颜值不错,又不占地方。当然,还有更小的款式,空间利用更佳!重量也就2kg多把,小孩一样也能搬得动。

分辨率足够。虽然没有顶级平板扫描仪那种变态的画质,但是也达到了拍普通彩色书籍的水准。比如我的这款富士通6135zla,twain协议下设置到1200dpi精度,扫描效果我非常满意!图片达到了左右的分辨率尺寸,对比600dpi的的主官真实画质,提升了一个档次!600dpi的时候,会有色彩断层(pdf有断层,可能因为富士通软件合成pdf时画质压缩。 如果是600dpi的图片格式,没断层,画质很好),1200dpi后画质就细腻很多,没有任何噪点和色彩断层。(我的扫描仪是双面ccd 可能画质本身比较好,cis传感器的型号可能会画质稍微弱一些)

下图是我刚扫描的一本书 灰度模式,1200dpi,单张照片分辨率大小。ocr以后,图片部分高清,文字部分完美文字,排版也ok!我已经深度中毒这种ocr阅读,因为阅读体验太好了!

可见,区区四百元的老式双ccd馈纸式扫描仪就达到了很高清的画质。

Ocr更方便。我实测发现,600dpi,1200dpi精度的扫描后可以直接ocr,正文的识别精度主观体验达到了99.5%和99.9% ,之前网上下载的很多高质量扫描书籍,很多都是适当的压缩,所以直接扫描识别率都很拉胯。。必须经过cep锐化,拉曲线,gamma处理以后才能达到99.5%以上的识别率,比较繁琐。。所以还是自己扫描的更香。。。

19.2 馈纸式扫描仪的缺点

需要裁切书籍。个别的有收藏价值的书籍不适合这种方式。

无法达到变态级画质。这时候需要祭出平板扫描仪。

厉害哈 你竟然看到了这里,下边是最后一章:

20、总结一下技术路线:

2021.7月 我最近又买了一台成者et18 玩玩ocr 还是不错的。 原装灯在正上方,我将 两侧增加了补光。

同月 同时购买了一台老式富士通6135zla双ccd馈纸式高速小型a4画幅扫描仪。这个出乎意料的非常好用!惊喜!

下一步计划购买一台零边距扫描仪或者短边距扫描仪玩玩。

技术路线总结(2021年7月版):

1 自制v型书架拍照 (必备,常用

2 成者et18高拍仪 (备用,选配)

3 平板扫描仪 中晶v700plus 或 中晶i360 (高质量扫描必备)

4 零边距扫描仪 虹光2200 或3160(扫描速度快 1.8秒一页)

5 馈纸式扫描仪 柯达(拆书党专用,0.x秒一页)

4 成者et18配套的软件(备用,选配)

5 中晶扫描仪配套软件(极限高质量扫描必备,常规选配)

1 某宝找书业务(扫描版) 3元一本(懒人必备

通过这些技术路线我们发现,各有特色,所以截止目前(2021.7),我认为所有设备各来一套,所有方法全部学会,才是最高效的扫描书籍的策略!速度,画质,无死角!

2021年的想法,因为之前几年积累了不少电子书,所以便有了这个想法。

实现功能:本地硬盘中所有的电子书 包括txt epub pdf等 实现全文检索。

经过实测,txt,html epub格式可以天生支持这款软件的全文搜索。

Pdf文件略为复杂。Pdf分为文字版和扫描版。 文字版,大多数支持他的全文搜索。扫描版必须变成Ocr处理后的双层文件或者转成纯文字版。或者转成带排版的图文混排文字版pdf.这样就可以了。

第一个(加粗版,用于扫描的太浅的书籍):纯黑白+usm锐化+抖动算法 v1 加强版,很粗的效果

纠斜: 自动_横排, 边缘保留

高斯模糊半径: 1.7

色彩设置: 色彩数=纯黑白, 抖动, 纯黑白(二值化)选项: 抖动算法=JJN

第二个(优化版,用于本身比较不错的需要优化的扫描书籍):纯黑白+usm锐化+抖动算法 v1 扫描的优化版

纠斜: 自动_横排, 边缘保留

页面大小: 内容框大小

高斯模糊半径: 1.1

色彩设置: 色彩数=纯黑白, 纯黑白(二值化)选项: 阀值算法=Otsu, 去斑直径=8, 去除与边缘接触的黑色区域, 边缘去毛刺

第三个:基础版 用于日常处理 纯黑白+usm锐化+抖动算法 v1

高斯模糊半径: 1.3

色彩设置: 色彩数=纯黑白, 抖动, 纯黑白(二值化)选项: 抖动算法=JJN


更新:两个ocr使用的配置参数。文字锐化+图文混排优化 明显提高了万兴pdf中ocr的识别率。实测达到了大约90%上升到99%以上的提升幅度。

更新:ocr3号参数,用于想保留更多图像细节的图文混排书籍。

更新:ocr4号参数,用于比较淡的,画质比较差的扫描书籍。

ocr5号参数,2号基础上减少对比度,曲线向下拉比较黑。 3号比较淡。

我目前常用2号,5号,优化来自网络的扫描书籍。2号淡5号黑。

3号来优化质量非常好的扫描书籍,也用的比较多。

更新:wolf算法 纯黑白文字2号参数,这个利用了多尺度细节增强,可以处理非照片的 图片,是wolf算法参数的改进版,文字依然锐利,而且ocr以后识别率提升一个级别。强烈推荐。

[纯黑白+usm锐化+抖动算法 v1 修改扫描版]

[wolf算法 纯文字版使用]

[ocr用 图文均衡 图文混排可用]

[ocr用 2号 图文混排优化图片效果]

[ocr 3号 更弱的锐化 图文混排用]

[ocr4号 文字加黑优化 兼顾图像]

[wolf 纯文字版 2.0 多尺度细节增强高斯锐化]

附3:真实制作案例:使用了黑白模式+抖动算法+usm锐化

链接:提取码:Wk85

265MB的彩色原版pdf,处理后编程了11.7MB。。。。

画质强迫症患者, 极客 可以看一下这个版本40MB 画质真的快到极限了 169%的放大 ,600dpi,超多gamma.各种调整和微调:

链接: 提取码:3732

附4:所有用到的工具的下载:

1本人已经开发出整本书pdf的批量ocr识别

附件8:pdf和ocr辅助工具四件套下载地址:

}

从到,几年间我已经发布了几款电子书阅读软件,分别针对扫描版电子书籍 包括漫画/连环画/PDG(CV、UV)、HTML书籍(MR)、纯文本书籍(MR、PBP)、PDG/PDF/DjVu/TIFF(UV)等。有心人可能已经注意到,这些软件都有一些共同的功能,这些功能也是我认为一款电子书阅读软件所应该具有的功能。下面总结一下,供各位有志于开发电子书阅读软件的人参考 ,也给读者一些选择阅读软件的建议。

所谓“必不可少”的功能,意思就是这些功能只要少了一项,就算阅读软件的界面做得再花哨,在我看来也只是一个玩具而已,没啥实际的价值。

身为上班族的一员,阅读这种事情真的只能用所谓的“碎片时间”来完成,所以一本书看一段就放下是常态,一气呵成全部看完只能是偶然。普通书籍都是这样,就更别提一套几十本的漫画、连环画了。

因此能够记忆上次退出时的阅读进度,下次进来后还能“断点恢复”就显得非常必要。这就是为什么我非常讨厌某些人用CHM分章节搞长篇小说的原因:亲,现在支持“断点恢复”的CHM阅读软件 有木有?一本小说今天看到某章的一半,明天再打开还要想一下上次看到哪一章、哪一段,这有多痛苦、多坑爹亲你知道吗?所以我拿到这样的 小说,要么是直接扔掉去找纯文本的,要么就是反编译没商量。

而在漫画、连环画界,为了保证所谓“辛苦扫描而产生的‘版权’”,专门的打包、阅读软件更是层出不穷,在没有记忆功能的情况下,每次都要在一套几十本书中回忆上次看到了哪里,已经不是用区区“坑爹”就能形容的,完全是把祖宗十八代都坑完、坑尽了。

而在我的软件中,一般是用以下两个办法解决“断点恢复”的问题:

  • 用“自动恢复”功能。即软件退出的时候,自动记忆现在正在看的文件(CV、UV),及当前内容在文件中的位置(MR、PBP),下次启动软件的时候,自动恢复上次退出时打开的文件,并移动到相应的位置。当然如果嫌烦,这个功能也能随时取消、恢复。
  • 用书签功能。即用户可以随时点“加入书签”按钮,将当前文件(CV、UV)、当前位置(MR、PBP)、当前的图像处理参数(CV、UV)保存到书签,在需要的时候再点“书签管理”,恢复到保存时的状态。

对于扫描版、HTML版书籍来说,散页存储无疑太占地方,管理起来也不方便,所以一般都是打包存储。也正因为这种需求比较旺盛,所以各种“专有”格式层出不穷,如超星的PDZ,及一些网站自己推出的打包格式。

我个人一贯是“标准”的信徒,所以总对这些非标的东东心存疑虑:我就没见过哪家大发善心针对这些专有打包格式推出过文件校验、修复工具的, 我怎么知道我下载到的文件是否完好无损?一旦文件损坏怎么办?就算文件没损坏,如果由于啥不幸的天灾人祸造成专用阅读器失效了,我想换一个软件看, 或者说就是在PC上看烦了想转到平板上看,解包软件有木有?

所以在我看来,大家没有必要挖空心思去发明啥格式了,就用标准的压缩文件格式就好。而在常见的zip与rar格式中,我认为zip更适合存储需要非顺序读取文件的阅读场景,原因我已经在《》中说过了:zip文件有目录表 (TOC),想找哪个文件从目录表里一查就知道该从哪里读取,很方便。至于某些人鼓吹的7-zip,由于缺省采用的是固实(solid)压缩,读取中间或尾部某个文件的时候,需要把这个文件之前的所有文件全部顺序解压一遍才行,所以我认为不适合于存储经常需要跳到中间某个文件的电子书。 与我持相同看法的人应该不少,所以epub、apk、jar其实也都是zip文件,把扩展名改成zip就可以直接解压。

WinRAR提供zip文件修复、校验功能,所以zip文件的数据完整性应该是有保障的。以前的zip标准限制了zip文件最大只能到4GB,现在的zip64标准已经突破了这个限制 ,用起来就更没问题了。

为了与其他普通的压缩文件相区别,虽然采用的是zip、rar这样的标准压缩格式,但为特定目的专门取一个扩展名也是很有必要的,这样容易把某一类特定的文件扩展名与专门的阅读器相关联,如漫画界一般把zip、rar改名成cbz、cbr,我个人猜测是comics book + zip/rar,UV也有样学样搞了个UVZ,即UV + ZIP,这样把整本书的PDG文件全部打包成一个zip文件,然后改名为UVZ,即可与UV相关联,双击就能打开。CV、UV、Zip2Dir均支持UVZ,用批处理批量将zip更名为uvz或反之也很简单 。而且因为zip标准的开放性,在手持设备上支持uvz也没啥门槛,readfree也曾推出过支持uvz的安卓软件,所以皆大欢喜。

这里说的“连续阅读”,是指用户在阅读的时候能够顺畅地阅读,不会被某些不必要的停顿所干扰。当然不同类型的电子书,存在不同类型的干扰。

对于扫描类电子书,如扫描版漫画、连环画,“连续阅读”指的是一部漫画或连环画如果分成若干集,那么阅读的时候就希望能够一集接一集顺序读下去,即使不同的集放在不同的子文件夹或打包文件里,也不希望每看完一集就必须手工选择下一集的文件或文件夹才能看下去。这就像现在的媒体播放器都支持自动连续播放:一部电影即使被切成了几片,只要主文件名相同,播放器就会自动连续播放,不至于播放到一半就停住,等人手工选择下一个片段的文件名。

这种分集存放的情况在漫画领域真的很常见,所以在CV中也最早支持,包括:

  • 如果文件是散页存放的,每集一个子文件夹,则用CV的“打开文件夹”功能打开上级文件夹,即可一路翻页,CV自动周游所有子文件夹中的文件。
  • 如果每集一个zip文件,整部书放在一个文件夹下,则用CV打开第一集,然后一路下翻,到每一集的结尾再下翻则自动打开下一集,在每一集的开头往前翻则自动打开前一集。
  • 如果把所有集按子文件夹散页存放,然后整本书打包成一个zip文件,用CV打开后,也可以自动周游zip文件中的所有文件夹,实现连续阅读。

UV因为主要针对的是PDG书籍,这种书基本上不存在一本书分成几个ZIP包或几个文件夹的问题,所以就没有这种功能。

在基于HTML文件的电子书中,页面跳转是靠点击链接实现的,所以自动连续阅读不大靠谱,反而是在页面切换时,每一页最后的那一下停顿比较令人心烦——在浏览HTML文件时,按空格键即可顺序往下翻页,可在翻到靠近页面底部时,如果剩下的内容不足一屏,则剩下多少翻多少,因此经常把人搞得一愣:按下空格键后,可能上一屏的结尾跑到了屏幕的中间,还得找一下才知道在哪里。

这种情况我在《》 一文中也说过,所以现在我看小说已经不看HTML格式的了,还是直接下载TXT格式的用PBP看更爽——可以一直按空格键从头翻到尾。

当然对于扫描版电子书、HTML电子书、纯文本电子书来说,还有一个共同的、影响连续阅读体验的干扰是翻页动画,这个在后面专门说。

只有扫描版电子书有这个需求,纯文本、HTML等无此需求。

虽然自从ComicEnhancer Pro(CEP)大升级后,我就一直在鼓吹用它处理扫描版电子书,还花力气写了《》 ,但我也知道指望所有人都把自己扫描的图像处理好了再发上来显然是很不现实的,所以对于网上充斥着各种扫描或处理得不尽如人意的电子书,包括发白PDG等,我也颇能理解。而且在我看来,如果扫描者自己的图像处理技术不过关, 那还真的不如不处理,直接裁边后发上来就好,总比胡乱处理后缺笔少划的强。

在这种情况下,图像处理功能对于扫描版电子书阅读软件就成了最基本也是最必备的功能,少了它根本就没有意义。毕竟很多书看一遍就扔,不处理吧实在看不下去,但指望每一本书 都下载下来先用CEP或PS处理一遍再看也不现实,所以还是在看的时候点几下鼠标简单处理一下,更能在人的惰性与耐性之间取得平衡。

图像处理技术也是分档次的,最简单的“点处理”功能,包括亮度、对比度、Gamma校正、曲线等,实现的软件会多一些,如DjVu格式的专用阅读器WinDjView就提供亮度、对比度 、Gamma校正等功能。而CV、UV的图像处理引擎用的是CEP的,所以还提供照度修正、自动纠斜、自动居中等专门为扫描版电子书开发的功能。

对于一个上班族来说,还有比这个更加必要、必须、必不可少的功能吗?所以只要是我开发的阅读软件,这个功能一定会 用最快的速度实现:按一下ESC键,然后整个窗口就隐藏、缩小到右下角去,老板走后再点一下即可恢复。

理论上说,在Windows下按Win+M组合键也可以起到类似的效果,不过那个杀伤力太大:所有窗口都会最小化,包括用来打掩护的Office、IE窗口。而且最小化后在下方任务栏上还能看到窗口标题,不是很保险。

所谓“锦上添花”,指的是能有当然好,没有的话忍一忍也能过去的那些功能。

在iphone等手持设备里,书架功能很好理解:把收藏的书的封面贴到书架背景图上,顺序排开,想看哪本点哪本。所以书架管理的核心思想,是让用户能够更方便地找到自己想看的书籍。

不论有没有书架管理功能,书籍都是按照文件夹存放的,只不过手持设备上存放的文件夹相对集中,可能就是一个固定的文件夹,而电脑上存放得相对分散,可能是用户自己按照某种分类方法创建的多级文件夹,甚至可能把不同类型的书籍放到不同的磁盘分区。所以在电脑上搞书架管理,就必须考虑 各种情况。

最终在我的阅读软件里实现的书架管理功能,都是“集中”与“分散”的结合:可以指定一个缺省文件夹,通常是存放最常用的书籍的文件夹,或分级文件夹的根,点一下按钮就能跳到该文件夹;也可以再添加一些常用文件夹,多点两下鼠标才能打开,但总比在资源管理器中一级、一级点开省点力气。

对于背景图案、背景颜色的作用,我在《》的《》 中已经详细说过了,简单转述一下就是:

  • 改善阅读体验。白底黑字的东西看多了眼睛会累,加点背景混淆一下视线可以缓解疲劳。这个对扫描版、文字版电子书都有效。
  • 掩饰图像的小瑕疵,使主题更突出。这个主要针对扫描版电子书。

所以在阅读的时候能够自己设置背景甚至前景,会是一件很爽的事。有些PDF把背景给限制死了,如果有必要我也会把它清除掉,我在readfree论坛发布的PdfToy教程里有好几篇就是专门讲这个的。

一般的软件都会有自己的快捷键,问题的关键就是软件自身定义的快捷键与用户平时养成的习惯是否一致,如果一致当然没啥问题,如果不一致,就总是会有人在那里穷嚷嚷。

所以有一个自定义快捷键功能,至少可以避免一点噪音。

所谓“画蛇添足”,就是在我看来实在是有害无益,但不知道为什么就是有人喜欢的一些功能。

某些以图像为主的书籍,可能会出现一幅画横跨两页的情况,在这种情况下,双页并排显示的功能对于阅读软件来说是必不可少的。但除此之外的并排显示,就是对眼睛的折磨了。

在阅读的时候,人眼一次能关注的范围是很窄的,所以在看一屏内容的时候,需要从左到右、从上到下的顺序扫描。尤其是在目前广为流行的宽屏上全屏显示,眼睛先在屏幕的左半部分扫一遍,然后脖子转转,再扫描右半部分,翻页后又脖子转转,继续扫描左半部分——是不是比只看中央相对较窄的区域更累?

所以虽然CV、PBP都有双页并排显示功能,但那是给某些偏执狂用的,我自己除非碰到非要并排显示不可的跨页画面,否则从来都只用单页显示。我也一直不能理解某些人在宽屏上看带框的连环画都要双页并排显示,难道他们从来就不觉得累吗?

终于说到我最切齿痛恨的一个功能了。这个功能最狂热的fans们对DeskTopAuthor(DA)之类的软件总是顶礼膜拜,而我最看不上的就是这个,所以当年在52ebook上就和他们大吵过一次。当然我对DA的不满还不止这一点,所以我早就说过这个东东没有前途,当时很多人不信,你看现在除了没见过啥市面的新鲜人,还有谁在用DA?

所以虽然PBP里有几种翻页动画可供选择,但那只是用来堵某些人的嘴,我自己从来不用。就连某些人推崇备至的e-ink屏,也因为每次翻页时都会眼前那么一黑,而令我深恶痛绝。 顺便说一句,很多人认为液晶屏比e-ink更费眼睛,在我看来其实原因很简单:他们的液晶屏从买来到报废就根本没有调整过任何参数。其实只要花10秒把亮度、对比度调暗一点,再设置一下窗口背景色,看起来就会顺眼得多。当然像我的EIZO显示器那样支持多种模式,平时用调整过的Custom模式,看电影、照片的时候再切换到Movie、Picture模式就更爽了。

言归正传,在我看来,翻页动画至少有如下坏处:

  • 打断阅读 。读得正是来劲的时候,却要等待翻页动画完成,眼睛也不由自主地跟着翻页动画而动,和在办某些事情办得正爽的时候旁边却传来一声狗叫是不是差不多?
  • 。对于一个上班族来说,一天24小时,去掉8小时上班、8小时睡眠,剩下的8小时里再去掉3小时的三餐加午休、2小时的上下班路途奔波,在不加班、不干太多家务活的情况下,一天能够完全自由支配的时间不过剩下区区3小时而已,这基本上就是吃完晚饭到睡前的时间,要再想延长就只能压缩睡眠时间,相当于燃烧生命。而我见过的翻页动画,快的1、2秒,慢的3、4秒,慢到5、6秒的翻页动画我也不是没有见过,这不是谋财害命还能是什么?

至于啥所谓的“读纸书的感觉”,我觉得根本就是扯淡:竹简比纸书更古老,怎么不见有人复古到去读竹简,甚至是更古老的龟甲?所以有自行车骑就不会有人想走路,有车开就不会去骑自行车,技术的进步总是在影响着人们的传统习惯,跟不上的自然会淘汰, 就像阿Q当年脑后垂着的那条“金钱鼠尾”一样。

}

我要回帖

更多关于 张鸣的书有哪些 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信