用户界面自动化活动

上次更新日期 2025年12月5日

输出或屏幕抓取方法

输出或屏幕抓取方法是指那些用于从指定的用户界面元素或文档（如 .pdf 文件）中提取数据的活动。

为了了解哪一个更适合自动化您的业务流程，我们来看看它们之间的区别。

能力方法	速度	准确度	后台执行	提取文本位置	提取隐藏文本	支持 Citrix
全文	10/10	100%	是	否	是	否
原生	8/10	100%	否	是	否	否
OCR	3/10	98％	否	是	否	是

默认方法是“全文”，它快速而准确，但与“原生”方法不同的是，它不能提取文本的屏幕坐标。

这两种方法都只适用于桌面应用程序，但“原生”方法只适用于为了使用图形设备接口 (GDI) 呈现文本而构建的应用程序。

OCR 不是 100% 准确，但可用于提取其他两种方法无法提取的文本，因为它适用于包括 Citrix 在内的所有应用程序Studio 默认情况下使用两个 OCR 引擎：Google Tesseract 和 Microsoft Modi。

可以为 OCR 引擎更改语言，您可以了解如何安装 OCR 语言。

能力方法	多语言支持	首选的区域大小	支持色彩反转	设置期望的文本格式	过滤允许的字符	最好使用 Microsoft 字体
Google Tesseract	可以添加	小	是	是	是	否
MIcrosoft MODI	默认情况下支持	大	否	否	否	是

要开始从各种来源提取文本，请单击“设计”功能区选项卡上“向导”组中的“屏幕抓取”按钮。

利用上述三种输出方法之一，屏幕抓取向导可以让您指向用户界面元素并从中提取文本。Studio 自动为您选择屏幕抓取方法，并将其显示在“屏幕抓取器向导”窗口的顶部。

要更改屏幕抓取方法，请从“选项”面板中选择另一种方法，然后单击“刷新”。

获得满意的抓取结果后，单击“复制到剪贴板” ，然后单击“完成” 。后一个选项将提取的文本复制到剪贴板，它可以添加到“设计器” 面板中的“生成数据表” 活动中。就像桌面录制一样，屏幕抓取会生成一个容器（带有顶级窗口的选取器），其中包含活动以及每个活动的部分选取器。

在“选项”面板中的“屏幕抓取器向导”中，每种类型的屏幕抓取都具有不同的功能：

全文
- 忽略隐藏项 – 当选中此复选框时，将不会复制所选用户界面元素中的隐藏文本。
原生
- 不限定格式 - 选中此复选框时，复制的文本不会从文本中提取格式信息。否则，保留提取文本的相对位置。
- 获取词信息 - 当选中此复选框时，Studio 还会提取每个词的屏幕坐标。此外，还将显示“自定义分隔符”字段，使您能够指定用作分隔符的字符。如果该字段为空，则使用所有已知文本分隔符。
Google OCR
- “语言”– 默认情况下只有英语可用。
- “字符”– 用于选择要提取的字符类型。提供以下选项：“任何字符”、“仅数字”、“字母”、“大写”、“小写”、“电话号码”、“币种”、“日期”和“自定义”。如果选择“自定义”，则会显示另外两个字段（“允许”和“拒绝”），用于创建有关要抓取的字符类型和要避免的字符类型的自定义规则。
- 反相 – 如果选中该复选框，则在抓取之前反转用户界面元素的颜色。这在背景颜色比文本颜色更深的情况下有用。
- “比例”– 选定用户界面元素或图像的比例因子。数字越大，将图像放大得越大。这样可以更好地读取 OCR，建议小图像使用较大比例因子。
- “获取词信息”– 获取每个抓取的词在屏幕上的位置。
  
  注意：在 Studio 的某些实例中，Google Tesseract 引擎可能有训练文件（关于训练文件，请参阅：Wikipedia 和 GitHub），这些训练文件可能不适用于某些非英语语言。运行包含这些已损坏训练文件的项目可能会导致抛出异常。要解决此问题，请从此处下载您希望使用的语言的训练文件，并将其从 UiPath 安装目录复制到 tessdata 文件夹中。要检查您下载的训练文件是否有效，可以下载此测试项目。
UiPath 屏幕 OCR
- “端点”– 托管 OCR 模型的端点，可以公开托管或通过 AI Center 中的 ML 技能托管。
- “API 密钥”– 端点 API 密钥。
- “获取词信息”– 获取每个抓取的词在屏幕上的位置。
- “使用本地服务器”– 如果要在本地运行 OCR，请选择此选项（需要计算机视觉本地服务器包）
Microsoft OCR

重要提示：Microsoft OCR 抓取引擎不支持 .NET 5 工作流。