studio
2024.10
true
UiPath logo, featuring letters U and I in white

Studio 用户指南

上次更新日期 2024年12月19日

输出或屏幕抓取方法

输出或屏幕抓取方法是指那些用于从指定的用户界面元素或文档(如 .pdf 文件)中提取数据的活动。

为了了解哪一个更适合自动化您的业务流程,我们来看看它们之间的区别。

能力方法

速度

准确度

后台执行

提取文本位置

提取隐藏文本

支持 Citrix

全文

10/10

100%

原生

8/10

100%

OCR

3/10

98%

默认方法是“全文”,它快速而准确,但与“原生”方法不同的是,它不能提取文本的屏幕坐标。

这两种方法都只适用于桌面应用程序,但“原生”方法只适用于为了使用图形设备接口 (GDI) 呈现文本而构建的应用程序。

OCR 不是 100% 准确,但可用于提取其他两种方法无法提取的文本,因为它适用于包括 Citrix 在内的所有应用程序Studio 默认情况下使用两个 OCR 引擎:Google Tesseract 和 Microsoft Modi。

可以为 OCR 引擎更改语言,您可以在此处了解如何安装 OCR 语言

能力方法

多语言支持

首选的区域大小

支持色彩反转

设置期望的文本格式

过滤允许的字符

最好使用 Microsoft 字体

Google Tesseract

可以添加

MIcrosoft MODI

默认情况下支持

要开始从各种来源提取文本,请单击“设计”功能区选项卡上“向导”组中的“屏幕抓取”按钮。

利用上述三种输出方法之一,屏幕抓取向导可以让您指向用户界面元素并从中提取文本。Studio 自动为您选择屏幕抓取方法,并将其显示在“屏幕抓取器向导”窗口的顶部。



要更改屏幕抓取方法,请从“选项”面板中选择另一种方法,然后单击“刷新”

如果您对抓取结果感到满意,请单击 “复制到剪贴板 ”,然后单击“ 完成”。 后一个选项会将提取的文本复制到剪贴板,并且可以将其添加到“ 设计器 ”面板中的“生成数据表”活动中。 就像 桌面录制一样,屏幕抓取会生成一个容器(带有顶层窗口的选取器),其中包含活动以及每个活动的部分选取器。



在“选项”面板中的“屏幕抓取器向导”中,每种类型的屏幕抓取都具有不同的功能:

  1. 全文



    • 忽略隐藏项 – 当选中此复选框时,将不会复制所选用户界面元素中的隐藏文本。
  2. 原生



    • 不限定格式 - 选中此复选框时,复制的文本不会从文本中提取格式信息。否则,保留提取文本的相对位置。
    • 获取词信息 - 当选中此复选框时,Studio 还会提取每个词的屏幕坐标。此外,还将显示“自定义分隔符”字段,使您能够指定用作分隔符的字符。如果该字段为空,则使用所有已知文本分隔符。
  3. Google OCR



    • “语言”– 默认情况下只有英语可用。
    • “字符”– 用于选择要提取的字符类型。提供以下选项:“任何字符”、“仅数字”、“字母”、“大写”、“小写”、“电话号码”、“币种”、“日期”和“自定义”。如果选择“自定义”,则会显示另外两个字段(“允许”和“拒绝”),用于创建有关要抓取的字符类型和要避免的字符类型的自定义规则。
    • 反相 – 如果选中该复选框,则在抓取之前反转用户界面元素的颜色。这在背景颜色比文本颜色更深的情况下有用。
    • “比例”– 选定用户界面元素或图像的比例因子。数字越大,将图像放大得越大。这样可以更好地读取 OCR,建议小图像使用较大比例因子。
    • “获取词信息”– 获取每个抓取的词在屏幕上的位置。

      注意:在 Studio 的某些实例中,Google Tesseract 引擎可能有训练文件(关于训练文件,请参阅:WikipediaGitHub),这些训练文件可能不适用于某些非英语语言。运行包含这些已损坏训练文件的项目可能会导致抛出异常。要解决此问题,请从此处下载您希望使用的语言的训练文件,并将其从 UiPath 安装目录复制到 tessdata 文件夹中。要检查您下载的训练文件是否有效,可以下载此测试项目
  4. UiPath 屏幕 OCR



    • “端点”– 托管 OCR 模型的端点,可以公开托管或通过 AI Center 中的 ML 技能托管。
    • “API 密钥”– 端点 API 密钥。
    • “获取词信息”– 获取每个抓取的词在屏幕上的位置。
    • “使用本地服务器”– 如果要在本地运行 OCR,请选择此选项(需要计算机视觉本地服务器包
  5. Microsoft OCR

    重要提示:Microsoft OCR 抓取引擎不支持 .NET 5 工作流。


  • “语言”– 用于更改抓取文本的语言。默认选择英语。
  • “比例”– 选定用户界面元素或图像的比例因子。数字越大,将图像放大得越大。这样可以更好地读取 OCR,建议小图像使用较大比例因子。
  • “获取词信息”- 获取每个抓取的词在屏幕上的位置。

除了从指示的用户界面元素中提取文本外,还可以提取多种类型属性的值、其确切的屏幕位置及其上级。

这种类型的信息可以通过在“活动”面板中的“用户界面自动化”>“元素”>“查找”和“用户界面自动化”>“元素”>“属性”下找到的专用活动来提取。

这些活动是:

  • 获取上级 - 用于从指定的用户界面元素中检索上级。您可以指示在哪个级别的用户界面层次结构中查找上级,并将结果存储在用户界面元素变量中。



  • 获取属性 – 检索指定用户界面元素属性的值。一旦您在屏幕上指示了用户界面元素,系统就会显示一个包含所有可用属性的下拉列表。



  • 获取位置 – 检索指定用户界面元素的边框,并且只支持矩形变量。



UiPath Studio 还具有“ 相对抓取” 功能,这种抓取方法可识别要检索的文本相对于锚点的位置。 您可以 在此处找到更多相关信息。

还可以使用“屏幕抓取向导”从非结构化数据生成表,并将这些信息存储在数据表变量中。有关更多信息,请参阅从非结构化数据生成表

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。