activities
latest
false
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
UiPath logo, featuring letters U and I in white
用户界面自动化活动
Last updated 2024年11月25日

表格数据提取

“表格提取”是 Studio 新式体验的一部分,使您能够使用“用户界面自动化”活动包自动从应用程序中提取结构化数据,并将其保存为 DataTable 对象,然后可以在自动化流程中进一步使用。

此过程可以通过使用 Studio 中的 表格提取 记录器来完成,如果当前项目中安装了用户界面自动化 v21.4 或更高版本包,并且您选择了 新式体验,则可以从功能区访问该记录器。

在工作流中使用“ 提取表格数据 ”活动时,也会使用相同的向导。

使用表格提取记录器

如果您在项目中选择了新式体验,并且安装了用户界面自动化活动包,则可以在 Studio 的功能区上找到 表格提取 记录器。



单击功能区中的“表格提取” 按钮将打开“ 表格提取”向导



此向导使您能够非常简单地配置“提取表格数据”活动提供的整套功能。

要在可用的用户界面框架(默认、用户界面自动化主动式辅助)之间切换,您可以从下拉菜单中选择一个选项或按F4

此外,“信息”部分将指导您完成成功提取任何结构化数据所需的所有步骤。 该部分可以折叠,以显示有关您当前所在步骤的更多信息。



要开始提取数据的流程,只需单击“ 添加数据 ”按钮。 这将启动指示一系列相似元素的流程,这些元素可用于标识要创建的表格。 这将启动“指明”流程,该流程会高亮显示检测到的您当前正在使用的应用程序的所有元素。 通过选择 按钮,您可以提取所提取数据的 URL 和图像源(如果存在)。 这些将作为新列添加到最终表格中。



如上所示,单击列标题后,向导会提示您一条消息,询问您是否要提取所有可用的列,这些列会自动识别。 选择 “是” 将抓取整个表格。

如果您选择的元素(最低共同祖先)仅与第一列中的一个元素更接近(最低共同祖先),则系统会自动将其视为新列的第一个元素。

如果表格跨越多个页面,您只需单击 “下一步”按钮 ,然后选择“下一页”导航按钮或链接。

可以单独编辑或删除每一列,使您能够根据需要自定义最终表格。



选择所需的所有数据后,只需单击“ 保存并返回 Studio ” 按钮,即可自动关闭向导并保存您在工作流中完成的所有操作。

编辑数据提取数据

您可以使用“ 提取表格数据 ”活动正文的上下文菜单中的“编辑提取数据”选项继续编辑已抓取的表格。 使用此选项可重新打开向导,其中包含之前执行的所有配置,并使您能够从上次中断的地方继续操作。



编辑列

单击要编辑的列旁边的齿轮图标,将打开“列设置” 窗口。



您可以在此处编辑“ 列名称”。 只需使用文本框并为最终表格中的列指定所需的名称,即可完成此操作。

使用“将 数据解析为” 下拉菜单,您可以在可用于列的三种主要数据类型之间进行选择: 文本数字以及 日期和时间

示例 ”文本框显示列中的值示例,该列中的值将作为您在“将 数据解析为 ”下拉列表中选择的数据类型进行解析。

文本

排序 ” 下拉菜单指定是否要对列中的数据进行排序。 默认情况下,选择“ ”,这意味着不对数据进行任何排序。 如果要按字母顺序对列中的数据进行排序,可以通过选择“ 升序 ”或“ 降序”来实现,具体取决于您喜欢的方法。

数字

在“将 数据解析为” 下拉列表中选择“数字”,将显示其他特定于数字的选项。



“排序”下拉菜单指定是否要对列中的数据进行排序。默认情况下,选择“无”,这意味着不对数据进行任何排序。如果要按字母数字对列中的数据进行排序,可以通过选择“升序”或“降序”来实现,具体取决于您喜欢的方法。

小数点分隔符 ” 指定要在最终表格中用于小数点分隔的符号。 默认情况下,此符号为 .
千位分隔符 指定要在最终表格中用于千位分隔符的符号。默认情况下为 ,
注意: 抓取数字时,系统会根据所选选项以及分隔符和其他符号(例如 $) 已删除。

日期与时间

在“将 数据解析为” 下拉列表中选择“日期和时间” 将显示特定于日期和时间格式的其他选项。



如果您正在编辑的列与指定的格式不匹配,“ 列设置” 窗口会在“ 示例 ” 部分通知您。



“排序”下拉菜单指定是否要对列中的数据进行排序。默认情况下,选择“无”,这意味着不对数据进行任何排序。如果要按字母数字对列中的数据进行排序,可以通过选择“升序”或“降序”来实现,具体取决于您喜欢的方法。

数据解析格式 ” 下拉列表使您能够从多种受支持的日期和时间格式中进行选择。

注意: 选择日期时,系统会根据您的操作系统中选择的格式对其进行格式化。 在向导中选择的解析格式仅用于识别要抓取的数据。

设置部分

设置” 部分可让您选择是否要限制提取表格中的元素。 默认情况下,此选项设置为 “无限制”,这不会以任何方式限制提取,而是会抓取整个可见表格。

最大行 数” 选项根据右侧字段中提到的行数限制抓取。 默认情况下,这设置为 1000 行。

“最大页数”选项根据右侧字段中提到的页数限制抓取。默认情况下,这设置为 100 页。

预览部分

预览 ” 部分指定为您指定的表格识别的列数和行数。 此外,通过单击眼睛按钮,您可以查看提取的表格的预览。

在离线模式下编辑时禁用预览。

提取元数据

提取元数据 ” 属性包含路径的 XML 定义,用于标识要为每列提取的数据。 路径是从数据提取目标(由选取器定义)到列元素构建的。 该路径使用 tagidxtext等属性。

示例:

<extract> 
<!—columns data identified by a path > 
<column exact='1' name=’Description’ attr='text'> 
<webctrl tag='div' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='2' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='span' idx='1' /> 
</column> 
<column exact='1' name=’Currency’ attr='text'> 
<webctrl tag='div' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='2' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='span' idx='2' /> 
</column> 
</extract><extract> 
<!—columns data identified by a path > 
<column exact='1' name=’Description’ attr='text'> 
<webctrl tag='div' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='2' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='span' idx='1' /> 
</column> 
<column exact='1' name=’Currency’ attr='text'> 
<webctrl tag='div' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='2' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='span' idx='2' /> 
</column> 
</extract>
tagidxtext 属性不足以识别用户指定的示例数据时,系统会生成 CSS 选取器,而不是路径。 此选取器使用示例元素的公共类。

示例:

<extract> 
<!—column data identified by a path > 
<column exact='1' name='Description' attr='text'> 
<webctrl tag='li' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='a' idx='1' /> 
<webctrl tag='div' idx='2' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='h3' idx='1' /> 
</column> 
<!—column data identified by a css-selector > 
<column css-selector='.currency-value' name='Currency' attr='text' /> 
</extract><extract> 
<!—column data identified by a path > 
<column exact='1' name='Description' attr='text'> 
<webctrl tag='li' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='a' idx='1' /> 
<webctrl tag='div' idx='2' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='h3' idx='1' /> 
</column> 
<!—column data identified by a css-selector > 
<column css-selector='.currency-value' name='Currency' attr='text' /> 
</extract>
对于“ 说明” 列, tagindex 属性用于标识列数据。

对于“ 货币 ” 列,通过 CSS 选取器识别元素,该选取器包含样本的公共类。

(可选)CSS 选取器(如果可用)也可用于“说明”:

<extract> 
<!—columns data identified by css-selectors > 
<column css-selector='.product-title ' name='Description' attr='text' /> 
<column css-selector='.currency-value' name='Currency' attr='text' /> 
</extract><extract> 
<!—columns data identified by css-selectors > 
<column css-selector='.product-title ' name='Description' attr='text' /> 
<column css-selector='.currency-value' name='Currency' attr='text' /> 
</extract>

行定义使用与列相同的标识方法,用于提取相关数据。 行包含每列中的一个元素。

示例:

<extract> 
<! -- row definition - ->  
<row exact='1'> 
<webctrl tag='li' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='a' idx='1' /> 
<webctrl tag='div' idx='2' /> 
<webctrl tag='div' idx='1' /> 
</row> 
<column exact='1' name='Description' attr='text'> 
<webctrl tag='li' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='a' idx='1' /> 
<webctrl tag='div' idx='2' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='h3' idx='1' /> 
</column> 
<column css-selector='.currency-value' name='Column' attr='text' /> 
</extract><extract> 
<! -- row definition - ->  
<row exact='1'> 
<webctrl tag='li' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='a' idx='1' /> 
<webctrl tag='div' idx='2' /> 
<webctrl tag='div' idx='1' /> 
</row> 
<column exact='1' name='Description' attr='text'> 
<webctrl tag='li' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='a' idx='1' /> 
<webctrl tag='div' idx='2' /> 
<webctrl tag='div' idx='1' /> 
<webctrl tag='h3' idx='1' /> 
</column> 
<column css-selector='.currency-value' name='Column' attr='text' /> 
</extract>

表格设置

此属性包含列设置的 XML 定义,因为它们是在抓取向导中定义的。 可以直接在此 XML 定义中更改“ 名称” 或“ 格式 ”等列属性,并将在运行时构建输出数据表时使用。

示例:

<Table xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xmlns:xsd='http://www.w3.org/2001/XMLSchema' Type='Structured'> 
<Column xsi:type='DataColumn' ReferenceName='Column0' Name=’Description'> 
<Format xsi:type='TextColumnFormat' /> 
</Column> 
<Column xsi:type='DataColumn' ReferenceName='Column2' Name=’Currency'> 
<Format xsi:type='TextColumnFormat' /> 
</Column> 
</Table><Table xmlns:xsi='http://www.w3.org/2001/XMLSchema-instance' xmlns:xsd='http://www.w3.org/2001/XMLSchema' Type='Structured'> 
<Column xsi:type='DataColumn' ReferenceName='Column0' Name=’Description'> 
<Format xsi:type='TextColumnFormat' /> 
</Column> 
<Column xsi:type='DataColumn' ReferenceName='Column2' Name=’Currency'> 
<Format xsi:type='TextColumnFormat' /> 
</Column> 
</Table>

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。