现在的位置: 首页 > 互联网络 > 博客心语 > 正文

Acrobat无法OCR识别的一个解决方案

2012-11-11 22:00 博客心语 ⁄ 共 507字 ⁄ 字号 评论 3 条

问题背景之前已经发现了Adobe Acrobat强大的OCR功能,最近试图再次使用它的时候,却弹出错误提示:“Acrobat无法在本页面上执行OCR识别,因为:本页面上包含图形而非图像和文本。无法捕捉。”搜索了半天没有结果。只有退而求其次使用CAJViewer的OCR识别功能,它的好处是比较方便,直接用鼠标框出一块就能识别,但是相比较劣势就是,你必须得一块一块的把你需要的东西框出来。

》》》三种软件的图像文本识别

    显然,这么做对于一个几百页的文档来说是就会很不实际的,必须另谋奇径。

解决方案

    本方案的基本思想是:先把该PDF文档'另存为'较高分辨率的图片文件(如tiff文件),然后再从图片文件创建pdf文件,最后利用Adobe Acrobat进行OCR识别。

    1、将源pdf档转化为图像格式:“文件”→“另存为...”→文件类型选择“jpg”,将文档转为N多张jpg图片。

    2、将图片重新汇成pdf档:“文件”→“合并”→“合并文件到单个pdf”→“添加文件...”→选择所有刚刚导出的图片。

    3、进行完上面两步之后,就可以对新的pdf进行OCR识别啦。

    以上方法,效果相当不错哟

目前有 3 条留言    访客:2 条, 博主:0 条 ,引用: 1 条

  1. COCAW 2015年09月26日 4:20 下午  @回复  Δ1楼 回复

    不能OCR的文件或复制显示为乱码的文件可以用cnki的阅读器cajviewer打开pdf文件,在cajviewer中把pdf再次打印成pdf文件,再执行OCR就可以识别了,而且效果比图片转来识别要好很多。

外部的引用: 1 条

  • Pdg2Pic+Adobe Acrobat:PDG转PDF的绝妙方法 « 求索阁

给我留言

留言无头像?