UiPath Documentation
document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 传统用户指南

上次更新日期 2026年5月14日

创建和配置字段

Fields can be renamed. Just select the Edit field编辑图标 button and simply edit the name of the field at the top of the window.

如果您稍后决定不使用某些字段来训练 ML 模型,则可以将其删除,也可以始终可以使用“编辑字段”窗口中的“隐藏”复选框将其隐藏。

备注:

最多可以创建 300 个字段。

列字段

发票单据上的行项目“说明”或“单价”就是列字段的示例。

新建列字段

  • Select加号图标 in the table section at the top of the page to add a new Column field. The Create Column Field window is displayed.

  • 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 _ 和短划线 -

  • 选择“确定”。系统将显示“编辑字段”窗口,并打开“常规”选项卡。

  • 从“内容类型”下拉列表中,选择内容类型。

  • 选择“热键”字段,然后按键盘上的键,会自动填充该字段。

  • 如果要将此字段用作表格中明细项目或行之间的分隔符,请选中“拆分项目”复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票明细项目中的“明细金额”字段。拆分项目功能仅适用于 FormsAI 文档类型的列。

  • 如果您不希望此字段成为导出数据集的一部分,请选中“隐藏”复选框。

  • 选择“高级”选项卡。

  • 从“评分”下拉列表中,选择在运行模型预测评估时用来确定准确性的度量。

  • 在“颜色”字段中,填写所需字段颜色的十六进制代码。

  • 选择“保存”,以保存您的设置。

编辑列字段

Select the Edit field编辑图标 button. The available options for column fields can be found in the following table.

选项

选项卡

描述

字段名称

不适用

字段的唯一名称。

该字段不接受大写字母。只能包含小写字母、数字、下划线 _ 和短划线 -

内容类型

常规

字段的内容类型:

  • 字符串:适用于公司名称或地址,以及付款条款,或者适用于 RPA 开发者在 RPA 工作流中更喜欢手动构建解析逻辑或格式化逻辑的任何其他字段。
  • 数字:适用于金额或数量,具有小数/千位分隔符的智能解析功能。
  • 日期:模型以yyyy-mm-dd格式解析、格式化和统一输出。您可以指定应如何解析和返回不明确的日期。为此,请从“日期格式”选项中选择“非美式(yyyy-mm-dd)”或“美式(yyyy-dd-mm)”。
  • 电话:适用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
  • ID 号:适用于字母数字代码和 ID 号,类似于字符串内容类型,但包括清除冒号:之前的所有字符。如果要提取的 ID 号可能包含:字符,请改用字符串内容类型,以避免数据丢失。

快捷方式

常规

字段的快捷键。允许使用一个或两个按键。

拆分项目

常规

如果要将此字段用作表格中行项目或行之间的分隔符,请选中此复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票行项目中的“行金额”字段。

隐藏

常规

如果您不希望此字段成为导出的数据集的一部分,请选中此复选框。

颜色

高级

字段的颜色,以十六进制格式表示。如果值无效,则生成一个新值。

计分

高级

用于在运行模型预测评估时确定准确度的方法。只能为字符串内容类型配置此选项。所有其他内容类型均使用精确匹配评分策略。选项:

  • 精确匹配:只有当预测与真实值完全匹配时,预测才会被视为正确(分数为 1)。如果预测与真实值有差别,即使只是一个字符的不同,预测也会被视为不正确(分数为 0)。
  • Levenshtein:根据预测与真实值之间的 Levenshtein 距离,预测被视为部分正确。如果系统除最后 2 个字符之外正确预测了 10 个字母组成的值,则该预测的分数为 0.8。

删除列字段

要删除列字段,请执行以下步骤:

  1. Select the Edit field编辑图标 button corresponding to the column field you want to delete.

  2. 选择“删除”按钮。

  3. 输入字段的确切名称。

  4. 选择“确定”。

  5. 列字段及其关联的带标签数据将被删除。

常规字段

这些字段在给定文档中仅出现一次。发票单据上的行项目“发票编号”或“总金额”就是列字段的示例。

新建常规字段

  • Select加号图标 on the right pane in the Regular Fields section. The Create Regular Field window is displayed.
  • 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 _ 和短划线 -
  • 选择“确定”。系统将显示“编辑字段”窗口,并打开“常规”选项卡。
  • 从“内容类型”下拉列表中选择内容类型。
  • 选择“快捷键”字段,然后按键盘上的键,会自动填充该字段。
  • 如果要检查的字段可能跨越多个文本行,例如地址或说明,请选中“多行”复选框。如果未选择此选项,则仅返回第一行。
  • 选中“多值”复选框,以将在文档中检测到的所有值显示为列表。您可以选中“多行”或“多值”复选框。
  • 如果您不希望此字段成为导出数据集的一部分,请选中“隐藏”复选框。
  • 选择“高级”选项卡。
  • 如果模型预测给定页面上某个字段的多个实例,请从“后处理”下拉列表中选择后处理机制。
  • 从“评分”下拉列表中,选择在运行模型预测评估时用来确定准确性的度量。
  • In the Color field, fill in the hex code of the desired field color.
  • 选择“保存”,以保存您的设置。

编辑常规字段

Select the Edit field编辑图标 button. The available options for regular fields can be found in the following table.

选项

选项卡

描述

字段名称

不适用

字段的唯一名称。

该字段不接受大写字母。只能包含小写字母、数字、下划线 _ 和短划线 -

内容类型

常规

字段的内容类型:

  • 字符串:适用于公司名称或地址,以及付款条款,或者适用于 RPA 开发者在 RPA 工作流中更喜欢手动构建解析逻辑或格式化逻辑的任何其他字段。
  • 数字:适用于金额或数量,具有小数/千位分隔符的智能解析功能。
  • 日期:模型以yyyy-mm-dd格式解析、格式化和统一输出。您可以指定应如何解析和返回不明确的日期。为此,请从“日期格式”选项中选择“非美式(yyyy-mm-dd)”或“美式(yyyy-dd-mm)”。当日期明确时,此选项不会产生任何影响,并且仅受 ML 包版本 22.10.2 或更高版本支持。
  • 电话:适用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
  • ID 号:适用于字母数字代码和 ID 号,类似于字符串内容类型,但包括清除冒号:之前的所有字符。如果要提取的 ID 号可能包含:字符,请改用字符串内容类型,以避免数据丢失。

后处理

高级

后处理机制。如果模型在给定页面上预测了某个字段的多个实例,则模型将返回:

  • highest_confidence:具有最高置信度的值。
  • first_span:第一个值。
  • largest_value:最大的数值。这仅对数字内容类型显示,并且适用于“总金额”字段。
  • 最长值:包含的字符数最多的值。

快捷方式

常规

字段的快捷键。允许使用一个或两个按键。

多行

常规

对于可能跨多个文本行的字段(地址或说明),请选中此复选框。否则,仅返回第一行。

多值

常规 选中此复选框,以将在文档中检测到的所有值显示为列表。您可以选中“多行”或“多值”复选框。

隐藏

常规

如果您不希望此字段成为导出的数据集的一部分,请选中此复选框。

计分

高级

用于在运行模型预测评估时确定准确度的方法。只能为字符串内容类型配置此选项。所有其他内容类型均使用精确匹配评分策略。选项:

  • 精确匹配:只有当预测与真实值完全匹配时,预测才会被视为正确(分数为 1)。如果预测与真实值有差别,即使只是一个字符的不同,预测也会被视为不正确(分数为 0)。
  • Levenshtein:根据预测与真实值之间的 Levenshtein 距离,预测被视为部分正确。如果系统除最后 2 个字符之外正确预测了 10 个字母组成的值,则该预测的分数为 0.8。

颜色

高级

字段的颜色,以十六进制格式表示。如果值无效,则生成一个新值。

删除常规字段

要删除常规字段,请执行以下步骤:

  1. Select the Edit field编辑图标 button corresponding to the regular field you want to delete.

  2. 选择“删除”按钮。

  3. 输入字段的确切名称。

  4. 选择“确定”。

  5. 常规字段及其关联的带标签数据将被删除。

分类字段

整体上引用文档的数据点。例如,收据的“费用类型”(伙食费、住宿费、航空费、交通费)或发票的“币种”(美元、欧元和日元)就是分类字段的示例。

新建分类字段

  1. Select 加号图标 on the right pane in the Classification Fields section. The Create a new classification field window is displayed.
  2. 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 _ 和短划线 -
  3. 选择“确定” 。系统将显示“编辑字段”窗口。
  4. 在文本区域中,填写类列表,然后以逗号分隔列表的形式键入名称。
  5. 选择“保存”,以保存您的设置。

编辑分类字段

Select the Edit field编辑图标 button. Define a list of possible values. Commas must separate values. An optional description of the value may be included after colon : (option 1 : description 1).

删除分类字段

要删除分类字段,请执行以下步骤:

  1. Select the Edit field编辑图标 button corresponding to the classification field you want to delete.

  2. 选择“删除”按钮。

  3. 输入字段的确切名称。

  4. 选择“确定”。

  5. 分类字段及其关联的带标签数据将被删除。

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新