Studio 用户指南

上次更新日期 2025年3月3日

OCR 活动

在某些情况下，某些应用程序不兼容常规抓取技术或用户界面自动化技术。Studio 中使用 OCR 技术的活动将扫描计算机的整个屏幕，查找显示的所有字符。这使用户能够根据屏幕上可以看到的内容来创建自动化，从而简化了虚拟机环境中的自动化。Citrix 和其他远程桌面实用程序通常是基于 OCR 的活动的目标，因为它们只将桌面图像流传输给用户，这意味着无法找到正常的用户界面选取器。

注意：创建自动化的最佳实践是使用录制向导创建项目，自动生成选取器，然后调整活动以最适合您的需要。

单击“OCR 文本 ” 和“ 悬停 OCR 文本 ”，使用 OCR 扫描计算机屏幕上的文本并执行与文本相关的操作。如果图形元素发生变化，但文本没有变化，则使用文本识别创建的自动化通常仍然有效。这些活动对于在虚拟机环境中自动化基本操作非常有用。这些活动收到一个目标作为输入，该目标可以是字符串变量、区域变量、用户界面元素变量或选取器，用于指示必须执行操作的坐标。还可以使用“ 在屏幕上指示” 功能自动生成目标，该功能会尝试识别指定区域中的用户界面元素，并为它们生成选取器。如果这不适合您，则可能需要手动干预。

“获取 OCR 文本 ”使用 OCR 屏幕抓取方法从指定的用户界面元素中提取字符串及其信息。此活动可在执行屏幕抓取时自动生成，同时还会生成一个容器。默认情况下，使用 Google OCR 引擎，但您可以通过 Abbyy 或 Microsoft 轻松更改它。这些 OCR 引擎之间存在一些差异（如此处所述），这使其适用于不同的情况。此活动收到一个目标作为输入，目标可以是区域变量、用户界面元素变量或选取器，这可帮助您识别要自动化的内容以及必须执行这些操作的位置。还可以使用“ 在屏幕上指示” 功能自动生成目标，该功能会尝试识别指定区域中的用户界面元素，并为它们生成选取器。如果这不适合您，则可能需要手动干预。此活动返回一个字符串变量，其中包含在用户界面元素中找到的文本，以及一个文本信息变量，其中包含所有找到的单词的屏幕坐标。

“查找 OCR 文本位置”可在用户界面元素中搜索给定的字符串，并返回包含所述字符串的用户界面元素变量。此活动对于定位相对于屏幕上文本的用户界面元素非常有用。此活动收到一个字符串和一个目标作为输入，字符串包含要搜索的文本，而目标可以是区域变量、用户界面元素变量或选取器，这可帮助您识别要自动化的内容以及必须执行这些操作的位置。还可以通过使用“在屏幕上指示”功能自动生成目标，该功能会尝试识别指定区域中的用户界面元素，并为它们生成选取器。如果此操作无效，则可能需要手动干预。此活动返回一个用户界面元素变量，其中包含找到文本的位置。

“存在 OCR 文本”检查能否通过使用 OCR 技术在给定用户界面元素中查找到文本，如果存在文本，则返回布尔值变量 true，如果不存在，则返回 false。此活动在所有类型的基于文本的自动化中都很有用，因为它可用于根据是否显示给定字符串来做出决策，或者用作“重试范围”活动中的条件，从而在循环中执行某些操作。此活动收到一个字符串和一个目标作为输入，字符串包含要搜索的文本，而目标可以是区域变量、用户界面元素变量或选取器，这可帮助您识别要自动化的内容以及必须执行这些操作的位置。还可以通过使用“在屏幕上指示”功能自动生成目标，该功能会尝试识别指定区域中的用户界面元素，并为它们生成选取器。如果此操作无效，则可能需要手动干预。此活动返回一个布尔值变量，用于声明是否找到文本。

OCR 引擎（例如 Google OCR、 Google Cloud OCR、 Microsoft OCR、 Microsoft Cloud OCR 和 Abbyy Cloud OCR）也可作为单独的活动使用。这些活动使用不同的 OCR 引擎从提供的图像中提取字符串及其位置。这些活动可与其他 OCR 活动（单击 OCR 文本、悬停在 OCR 文本上方、获取 OCR 文本、查找 OCR 文本位置）一起使用。这些活动将接收包含要扫描的图像文件的图像变量作为输入。活动返回一个 IEnumerable<KeyValuePair<Rectangle,String>> 变量和一个字符串变量作为输出，变量包含提取的文本及其屏幕上坐标，而字符串变量包含提取的文本。

此页面有帮助吗？

前一个使用文本自动化的示例

下一个安装 OCR 语言

获取您需要的帮助

了解 RPA - 自动化课程

UiPath Community 论坛