用户界面自动化活动

上次更新日期 2026年3月13日

OCR 活动

在某些情况下，某些应用程序不兼容常规抓取技术或用户界面自动化技术。Studio 中使用 OCR 技术的活动将扫描计算机的整个屏幕，查找显示的所有字符。这使用户能够根据屏幕上可以看到的内容来创建自动化，从而简化了虚拟机环境中的自动化。Citrix 和其他远程桌面实用程序通常是基于 OCR 的活动的目标，因为它们只将桌面图像流传输给用户，这意味着无法找到正常的用户界面选取器。

备注：

创建自动化的最佳实践是使用录制向导创建项目，自动生成选取器，然后调整活动以最适合您的需要。

单击 OCR 文本和悬停 OCR 文本使用 OCR 扫描计算机屏幕上的文本并执行与其相关的操作。如果图形元素发生变化，但文本没有变化，使用文本识别创建的自动化通常仍然有效。这些都是在虚拟机环境中自动化基本操作的非常有用的活动。这些活动收到一个目标作为输入，目标可以是字符串变量、区域变量、用户界面元素变量或选取器，指示必须执行操作的坐标。还可以通过使用 “在屏幕上指示”功能自动生成目标，该功能会尝试识别指定区域中的用户界面元素，并为它们生成选取器。如果这不适用于您，则可能需要手动干预。

“获取 OCR 文本”使用 OCR 屏幕抓取方法从指定的用户界面元素中提取一个字符串及其信息。该活动可在执行屏幕抓取时自动生成，同时还会生成一个容器。默认情况下，使用 Google OCR 引擎，但您可以轻松地将其更改为 ABBYY 或 Microsoft。如输出和屏幕抓取方法中所述，这些 OCR 引擎之间存在一些差异，从而适用于不同的情况。此活动收到一个目标作为输入，目标可以是区域变量、用户界面元素变量或选取器，这可帮助您识别要自动化的内容以及必须执行这些操作的位置。还可以通过使用 “在屏幕上指示”功能自动生成目标，该功能会尝试识别指定区域中的用户界面元素，并为它们生成选取器。如果这不适用于您，则可能需要手动干预。此活动返回一个字符串变量，其中包含在用户界面元素中找到的文本，以及一个文本信息变量，其中包含所有找到的单词的屏幕坐标。

“查找 OCR 文本位置”可在用户界面元素中搜索给定的字符串，并返回包含所述字符串的用户界面元素变量。此活动对于定位相对于屏幕上文本的用户界面元素非常有用。此活动收到一个字符串和一个目标作为输入，字符串包含要搜索的文本，而目标可以是区域变量、用户界面元素变量或选取器，这可帮助您识别要自动化的内容，以及在哪些情况下必须执行这些操作被执行。还可以通过使用 “在屏幕上指示”功能自动生成目标，该功能会尝试识别指定区域中的用户界面元素，并为它们生成选取器。如果这不适用于您，则可能需要手动干预。此活动返回一个用户界面元素变量，其中包含找到文本的位置。

“存在 OCR 文本”检查能否通过使用 OCR 技术在给定用户界面元素中查找到文本，如果存在文本，则返回布尔值变量 true，如果不存在，则返回 false。此活动在所有类型的基于文本的自动化中都很有用，因为它可用于根据是否显示给定字符串来做出决策，或者可用于通过将其用作条件来在循环中执行某些操作在“重试作用域”活动中。此活动收到一个字符串和一个目标作为输入，字符串包含要搜索的文本，而目标可以是区域变量、用户界面元素变量或选取器，这可帮助您识别要自动化的内容以及必须执行的操作。还可以通过使用 “在屏幕上指示”功能自动生成目标，该功能会尝试识别指定区域中的用户界面元素，并为它们生成选取器。如果这不适用于您，则可能需要手动干预。此活动返回一个布尔值变量，用于声明是否找到文本。

OCR 引擎，例如 Google OCR、Google Cloud OCR、Microsoft Cloud OCR 和 ABBYYY Cloud OCR 也可作为单独的活动使用。这些活动使用不同的 OCR 引擎从提供的图像中提取字符串及其位置。这些活动可与其他 OCR 活动（单击 OCR 文本、悬停 OCR 文本、获取 OCR 文本和查找 OCR 文本位置）一起使用。作为输入，这些活动会收到包含要扫描的图像文件的图像变量。活动返回一个IEnumerable<KeyValuePair<Rectangle,String>>变量和一个字符串变量作为输出，变量包含提取的文本及其屏幕上坐标，而字符串变量包含提取的文本。

此页面有帮助吗？

前一个使用文本自动化的示例

下一个安装 OCR 语言