document-understanding
latest
false
UiPath logo, featuring letters U and I in white

Document Understanding 用户指南

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
上次更新日期 2024年12月12日

创建和配置字段

您可以重命名字段。只需单击“编辑字段按钮,即可在窗口顶部编辑字段的名称。

如果您稍后决定不使用某些字段来训练 ML 模型,则可以将其删除,也可以始终可以使用“编辑字段”窗口中的“隐藏”复选框将其隐藏。

注意:最多可以创建 300 个字段。

列字段

发票单据上的行项目“说明”或“单价”就是列字段的示例。

新建列字段

  • 在页面顶部的表格部分单击 docs image,以添加新的“列”字段。系统将显示“创建列字段”窗口。
  • 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 (_) 和短划线 (-)。
  • 单击“确定”。系统将显示“编辑字段”窗口,并打开“常规”选项卡。

    docs image
  • 从“内容类型”下拉列表中,选择内容类型。
  • 单击“热键”字段,然后按键盘上的某个键以自动填充该字段。
  • 如果要将此字段用作表格中明细项目或行之间的分隔符,请选中“拆分项目”复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票明细项目中的“明细金额”字段。

  • 如果您不希望此字段成为导出数据集的一部分,请选中“隐藏”复选框。
  • 单击“高级”选项卡。
  • 从“评分”下拉列表中,选择在运行模型预测评估时用来确定准确性的度量。
  • 在“颜色”字段中,填写所需字段颜色的十六进制代码。
  • 单击“保存”以保存您的设置。

编辑列字段

单击“编辑字段”按钮 。可以在下表中找到列字段的可用选项。

选项

选项卡

描述

字段名称

不适用

字段的唯一名称。

该字段不接受大写字母。只能包含小写字母、数字、下划线 _ 和短划线 -

内容类型

常规

字段的内容类型:

  • 字符串:适用于公司名称或地址,以及付款条款,或者适用于 RPA 开发者在 RPA 工作流中更喜欢手动构建解析逻辑或格式化逻辑的任何其他字段。
  • 数字:适用于金额或数量,具有小数/千位分隔符的智能解析功能。
  • date: the model parses, formats and unifies the output in a yyyy-mm-dd format. You can indicate how ambiguous dates should be parsed and returned. To do this, choose between Non-US style (yyyy-mm-dd) and US style (yyyy-dd-mm) from the Date format option.
  • 电话:适用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
  • ID 号:适用于字母数字代码和 ID 号,类似于字符串内容类型,但包括清除冒号 (:) 之前的所有字符。如果要提取的 ID 号可能包含 : 字符,请改用字符串内容类型,以避免数据丢失。

快捷方式

常规

字段的快捷键。允许使用一个或两个按键。

拆分项目

常规

如果要将此字段用作表格中行项目或行之间的分隔符,请选中此复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票行项目中的“行金额”字段。

隐藏

常规

如果您不希望此字段成为导出的数据集的一部分,请选中此复选框。

颜色

高级

字段的颜色,以十六进制格式表示。如果值无效,则生成一个新值。

计分

高级

用于在运行模型预测评估时确定准确度的方法。只能为字符串内容类型配置此选项。所有其他内容类型均使用精确匹配评分策略。选项:

  • 精确匹配:只有当预测与真实值完全匹配时,预测才会被视为正确(分数为 1)。如果预测与真实值有差别,即使只是一个字符的不同,预测也会被视为不正确(分数为 0)。
  • Levenshtein:根据预测与真实值之间的 Levenshtein 距离,预测被视为部分正确。如果系统除最后 2 个字符之外正确预测了 10 个字母组成的值,则该预测的分数为 0.8。

删除列字段

要删除列字段,请执行以下步骤:

  1. 单击与要删除的列字段对应的“编辑字段docs image 按钮。
  2. 单击“删除”按钮。
  3. 输入字段的确切名称。


  4. 单击“确定”
  5. 列字段及其关联的带标签数据将被删除。

常规字段

这些字段在给定文档中仅出现一次。发票单据上的行项目“发票编号”或“总金额”就是列字段的示例。

新建常规字段

  • 单击“常规字段”部分右侧窗格中的 docs image。系统将显示“创建常规字段”窗口。
  • 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 (_) 和短划线 (-)。
  • 单击“确定”。系统将显示“编辑字段”窗口,并打开“常规”选项卡。
  • 从“内容类型”下拉列表中选择内容类型。
  • 单击“快捷方式”字段,然后按键盘上的某个键以自动填充该字段。
  • 如果要检查的字段可能跨越多个文本行,例如地址或说明,请选中“多行”复选框。如果未选择此选项,则仅返回第一行。
  • 选中“多值”复选框,以将在文档中检测到的所有值显示为列表。您可以选中“多行”或“多值”复选框。
  • 如果您不希望此字段成为导出数据集的一部分,请选中“隐藏”复选框。
  • 单击“高级”选项卡。
  • 如果模型预测给定页面上某个字段的多个实例,请从“后处理”下拉列表中选择后处理机制。
  • 从“评分”下拉列表中,选择在运行模型预测评估时用来确定准确性的度量。
  • 在“颜色”字段中,填写所需字段颜色的十六进制代码。
  • 单击“保存”以保存您的设置。

编辑常规字段

单击“编辑字段”按钮 。可以在下表中找到常规字段的可用选项。

选项

选项卡

描述

字段名称

不适用

字段的唯一名称。

该字段不接受大写字母。只能包含小写字母、数字、下划线 _ 和短划线 -

内容类型

常规

字段的内容类型:

  • 字符串:适用于公司名称或地址,以及付款条款,或者适用于 RPA 开发者在 RPA 工作流中更喜欢手动构建解析逻辑或格式化逻辑的任何其他字段。
  • 数字:适用于金额或数量,具有小数/千位分隔符的智能解析功能。
  • date: the model parses, formats and unifies the output in a yyyy-mm-dd format. You can indicate how ambiguous dates should be parsed and returned. To do this, choose between Non-US style (yyyy-mm-dd) and US style (yyyy-dd-mm) from the Date format option. This option has no impact when the date is not ambiguous and is only supported by ML Packages version 22.10.2 or later.
  • 电话:适用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
  • ID 号:适用于字母数字代码和 ID 号,类似于字符串内容类型,但包括清除冒号 (:) 之前的所有字符。如果要提取的 ID 号可能包含 : 字符,请改用字符串内容类型,以避免数据丢失。

后处理

高级

后处理机制。如果模型在给定页面上预测了某个字段的多个实例,则模型将返回:

  • highest_confidence:具有最高置信度的值。
  • first_span:第一个值。
  • largest_value:最大的数值。该项仅对数字内容类型显示,并且适用于“总金额”字段。
  • 最长值:包含的字符数最多的值。

快捷方式

常规

字段的快捷键。允许使用一个或两个按键。

多行

常规

对于可能跨多个文本行的字段(地址或说明),请选中此复选框。否则,仅返回第一行。

多值

常规选中此复选框,以将在文档中检测到的所有值显示为列表。您可以选中“多行”或“多值”复选框。

隐藏

常规

如果您不希望此字段成为导出的数据集的一部分,请选中此复选框。

计分

高级

用于在运行模型预测评估时确定准确度的方法。只能为字符串内容类型配置此选项。所有其他内容类型均使用精确匹配评分策略。选项:

  • 精确匹配:只有当预测与真实值完全匹配时,预测才会被视为正确(分数为 1)。如果预测与真实值有差别,即使只是一个字符的不同,预测也会被视为不正确(分数为 0)。
  • Levenshtein:根据预测与真实值之间的 Levenshtein 距离,预测被视为部分正确。如果系统除最后 2 个字符之外正确预测了 10 个字母组成的值,则该预测的分数为 0.8。

颜色

高级

字段的颜色,以十六进制格式表示。如果值无效,则生成一个新值。

删除常规字段

要删除常规字段,请执行以下步骤:

  1. 单击与要删除的常规字段对应的“编辑字段docs image 按钮。
  2. 单击“删除”按钮。
  3. 输入字段的确切名称。


  4. 单击“确定”
  5. 常规字段及其关联的带标签数据将被删除。

分类字段

整体上引用文档的数据点。例如,收据的“费用类型”(伙食费、住宿费、航空费、交通费)或发票的“币种”(美元、欧元和日元)就是分类字段的示例。

新建分类字段

  1. 单击“分类字段”部分右侧窗格中的 docs image。系统将显示“创建分类字段”窗口。
  2. 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 (_) 和短划线 (-)。
  3. 单击“确定”。 系统将显示“编辑字段”窗口。
  4. 在文本区域中,填写类列表,然后以逗号分隔列表的形式键入名称。
  5. 单击“保存”以保存您的设置。

编辑分类字段

单击“编辑字段”按钮 docs image。定义可能值的列表。必须用逗号分隔值。值的可选说明可以包含在冒号 (:) 之后(选项 1 : 说明 1)。


删除分类字段

要删除分类字段,请执行以下步骤:

  1. 单击与要删除的分类字段对应的“编辑字段docs image 按钮。
  2. 单击“删除”按钮。
  3. 输入字段的确切名称。


  4. 单击“确定”
  5. 分类字段及其关联的带标签数据将被删除。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。