【问题背景】之前已经发现了Adobe Acrobat强大的OCR功能,最近试图再次使用它的时候,却弹出错误提示:“Acrobat无法在本页面上执行OCR识别,因为:本页面上包含图形而非图像和文本。无法捕捉。”搜索了半天没有结果。只有退而求其次使用CAJViewer的OCR识别功能,它的好处是比较方便,直接用鼠标框出一块就能识别,但是相比较劣势就是,你必须得一块一块的把你需要的东西框出来。
》》》三种软件的图像文本识别
显然,这么做对于一个几百页的文档来说是就会很不实际的,必须另谋奇径。
【解决方案】
本方案的基本思想是:先把该PDF文档'另存为'较高分辨率的图片文件(如tiff文件),然后再从图片文件创建pdf文件,最后利用Adobe Acrobat进行OCR识别。
1、将源pdf档转化为图像格式:“文件”→“另存为...”→文件类型选择“jpg”,将文档转为N多张jpg图片。
2、将图片重新汇成pdf档:“文件”→“合并”→“合并文件到单个pdf”→“添加文件...”→选择所有刚刚导出的图片。
3、进行完上面两步之后,就可以对新的pdf进行OCR识别啦。
以上方法,效果相当不错哟。
不能OCR的文件或复制显示为乱码的文件可以用cnki的阅读器cajviewer打开pdf文件,在cajviewer中把pdf再次打印成pdf文件,再执行OCR就可以识别了,而且效果比图片转来识别要好很多。
https://jingyan.baidu.com/article/ad310e80bc8d851849f49eb3.html
用这种方法识别率更高