为Squish安装Tesseract

Squish使用免费的Tesseract OCR库作为其主要引擎,以便进行文本识别。要使用Tesseract OCR引擎,该软件包以及所有语言文件都需要独立于Squish安装。任何其他OCR引擎都可以潜在地替换使用Squish。

为Squish提供的Tesseract是一个包含引擎库和完整语言文件的单一、易于安装的二进制软件包。您可以在选择Squish作为产品后,在Qt客户门户下载部分找到所有支持平台的所有软件包(您可能想通过版本过滤软件包列表,并选择特殊作为首选版本,以便轻松定位Tesseract软件包)。

Squish中的OCR功能

光学字符识别(OCR)是一种技术,可以将带有印刷或手写文本的扫描图像数字化,以机器可读数据,稍后可以用于电子编辑。供OCR软件使用的图像源包括仅包含图像的PDF文件、扫描文档、手写稿件或摄像头图像等。

OCR技术的应用范围广泛,包括自动数据录入、机场护照识别、数字化旧报纸、车牌自动识别以及视觉障碍者的辅助技术。使用OCR进行文本数字化的优点是显而易见的。也就是说,OCR通过将纸质文件压缩成电子文件,大大节省了存储空间;打印文本的可搜索性得到了显著提高;一旦文本被转换为机器编码文本,经过计算机化后,编辑文档就更容易了,并且可以使用标准的文字处理软件进行编辑;此外,打印文本的数字备份(例如,法律文件或报纸)可以经常进行,并比保持纸质形式的文档具有更高的安全性。

Squish将OCR作为对其现有的基于对象和基于图像的识别方法的补充。由于字体、字体大小、装饰和渲染模式的多样性,在尝试创建基于平台的测试时,特别是在屏幕文本中,组件视觉外观的可变性尤为突出。因此,包括模糊图像搜索在内的基于图像的识别方法通常不适用于定位屏幕上的文本。因此,OCR允许在这些场景中对文本进行有效的处理,在这些场景中,相同的文本具有不同的参数,在像素级的比较中看起来大不相同(即,由于字母宽度不同、不同的间距或变化的换行位置)。

配置软件包

从Qt客户门户下载适合您操作系统的Tesseract for Squish软件包到您的计算机上,并执行它。

在Linux上,您首先需要使您下载的.run文件可执行。流行的桌面环境通过在文件上右键单击并启用执行权限来实现这一点。您还可以通过在命令行中运行以下命令来使安装程序可执行:

$ chmod a+x
tesseract-4.0.0-for-squish.x64.run

安装程序将通过显示多个页面来引导您完成配置过程。

"Tesseract for Squish setup program"

注意:在启动安装程序后,您可以使用返回按钮返回更改配置设置,并使用下一步按钮进入以下页面。

安装文件夹

此步骤确定Tesseract for Squish将在您的系统中的位置。

"Target selection page"

承认使用条款

"Apache license test page"

在选择安装文件夹后,您将看到关于您使用SQitch版本Tesseract的许可证书。仔细阅读整个许可文本。在许可证文本下方选择一个单选按钮(我接受许可。我不接受许可。),以表明您是否同意或不同意条款。如果您不同意,您不能安装或使用SQitch版本的Tesseract。要终止安装,请点击取消。

如果您接受许可,下一步按钮将变为启用状态,您可以进入配置过程的下一步。

Tesseract Engine注册

为了使用SQitch版本的Tesseract,您需要在SQitch中进行安装路径注册。如果您选择将Tesseract安装与SQitch一起注册,则Tesseract版本SQitch的安装程序将在安装时执行注册。

"Qt library configuration page"

注意:如果您选择不将Tesseract安装与SQitch一起注册,您可以在以后通过在squishide OCR面板中输入已选择的安装路径或将ocr.ini文件手动编辑来实现注册。

准备安装

此时,所有配置选项都已设置,安装准备就绪。将显示一个页面,显示SQitch版本的Tesseract所需的磁盘空间。

"Configuration review page"

执行安装

安装程序现在开始将SQitch版本的Tesseract安装到您的系统上。您可以点击显示详细信息按钮,以获取安装过程中执行的详细操作列表。

"Installing a package"

您可以在任何时候关闭安装程序,例如,通过关闭窗口或按取消按钮(仅在非macOS平台上可见)。到此为止所做的一切更改都将撤销。

配置总结

恭喜!您已成功安装SQitch版本的Tesseract。此页面总结了您的SQitch版本Tesseract二进制包的安装设置。

"Final page"

点击完成按钮以关闭安装程序。

执行无人值守安装

您可以对SQitch版本的Tesseract进行完全无人值守的安装,提前传递所有必需的值。无人值守安装不需要任何用户交互,与手动与应用程序界面交互相同。要执行无人值守安装,从命令行调用SQitch版本的Tesseract安装程序,并至少传递参数unattended=1

$ ./tesseract-4.0.0-for-squish.x64.run unattended=1 more options...

此参数将启动安装而不显示任何图形用户界面。相反,进度信息和潜在的错误消息将写入控制台。

除了unattended=1参数外,您可能还希望指定targetdir=PATH参数来指定目标安装目录或指定register=0以禁用与SQitch一起自动注册引擎。

$ ./tesseract-4.0.0-for-squish.x64.run unattended=1 targetdir=/opt/tesseract register=0

©2024 Qt公司有限公司。此文档中的文档贡献为各自权利人的版权。
提供的文档根据版本1.3的GNU自由文档许可证的条款许可,由自由软件基金会出版。
Qt及其相关商标是芬兰Qt公司及其它国家在世界范围内的注册商标。所有其他商标均为各自所有者的财产。