Document Understanding 用户指南

适用平台：

上次更新日期 2025年4月11日

创建和配置字段

您可以重命名字段。只需单击“编辑字段”按钮，即可在窗口顶部编辑字段的名称。

如果您稍后决定不使用某些字段来训练 ML 模型，则可以将其删除，也可以始终可以使用“编辑字段”窗口中的“隐藏”复选框将其隐藏。

注意：最多可以创建 300 个字段。

列字段

发票单据上的行项目“说明”或“单价”就是列字段的示例。

新建列字段

在页面顶部的表格部分单击，以添加新的“列”字段。系统将显示“创建列字段”窗口。
在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 (_) 和短划线 (-)。
单击“确定”。系统将显示“编辑字段”窗口，并打开“常规”选项卡。
从“内容类型”下拉列表中，选择内容类型。
单击“热键”字段，然后按键盘上的某个键以自动填充该字段。
如果要将此字段用作表格中明细项目或行之间的分隔符，请选中“拆分项目”复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票明细项目中的“明细金额”字段。
如果您不希望此字段成为导出数据集的一部分，请选中“隐藏”复选框。
单击“高级”选项卡。
从“评分”下拉列表中，选择在运行模型预测评估时用来确定准确性的度量。
在“颜色”字段中，填写所需字段颜色的十六进制代码。
单击“保存”以保存您的设置。

编辑列字段

单击“编辑字段”按钮。可以在下表中找到列字段的可用选项。

选项	选项卡	描述
字段名称	不适用	字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 `_` 和短划线 `-`。
内容类型	常规	字段的内容类型：字符串：适用于公司名称或地址，以及付款条款，或者适用于 RPA 开发者在 RPA 工作流中更喜欢手动构建解析逻辑或格式化逻辑的任何其他字段。数字：适用于金额或数量，具有小数/千位分隔符的智能解析功能。日期：模型以 yyyy-mm-dd 格式解析、格式化和统一输出。您可以指定应如何解析和返回不明确的日期。为此，请从“日期格式”选项中选择“非美式”(yyyy-mm-dd) 或“美式”(yyyy-dd-mm)。电话：适用于电话号码。设置格式会删除字母和括号，并将空格替换为短划线。 ID 号：适用于字母数字代码和 ID 号，类似于字符串内容类型，但包括清除冒号 (`:`) 之前的所有字符。如果要提取的 ID 号可能包含 `:` 字符，请改用字符串内容类型，以避免数据丢失。
快捷方式	常规	字段的快捷键。允许使用一个或两个按键。
拆分项目	常规	如果要将此字段用作表格中行项目或行之间的分隔符，请选中此复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票行项目中的“行金额”字段。
隐藏	常规	如果您不希望此字段成为导出的数据集的一部分，请选中此复选框。
颜色	高级	字段的颜色，以十六进制格式表示。如果值无效，则生成一个新值。
计分	高级	用于在运行模型预测评估时确定准确度的方法。只能为字符串内容类型配置此选项。所有其他内容类型均使用精确匹配评分策略。选项：精确匹配：只有当预测与真实值完全匹配时，预测才会被视为正确（分数为 1）。如果预测与真实值有差别，即使只是一个字符的不同，预测也会被视为不正确（分数为 0）。 Levenshtein：根据预测与真实值之间的 Levenshtein 距离，预测被视为部分正确。如果系统除最后 2 个字符之外正确预测了 10 个字母组成的值，则该预测的分数为 0.8。

删除列字段

要删除列字段，请执行以下步骤：

单击与要删除的列字段对应的“编辑字段” 按钮。
单击“删除”按钮。
输入字段的确切名称。
单击“确定”。
列字段及其关联的带标签数据将被删除。

常规字段

这些字段在给定文档中仅出现一次。发票单据上的行项目“发票编号”或“总金额”就是列字段的示例。

新建常规字段

单击“常规字段”部分右侧窗格中的。系统将显示“创建常规字段”窗口。
在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 (_) 和短划线 (-)。
单击“确定”。系统将显示“编辑字段”窗口，并打开“常规”选项卡。
从“内容类型”下拉列表中选择内容类型。
单击“快捷方式”字段，然后按键盘上的某个键以自动填充该字段。
如果要检查的字段可能跨越多个文本行，例如地址或说明，请选中“多行”复选框。如果未选择此选项，则仅返回第一行。
选中“多值”复选框，以将在文档中检测到的所有值显示为列表。您可以选中“多行”或“多值”复选框。
如果您不希望此字段成为导出数据集的一部分，请选中“隐藏”复选框。
单击“高级”选项卡。
如果模型预测给定页面上某个字段的多个实例，请从“后处理”下拉列表中选择后处理机制。
从“评分”下拉列表中，选择在运行模型预测评估时用来确定准确性的度量。
在“颜色”字段中，填写所需字段颜色的十六进制代码。
单击“保存”以保存您的设置。

编辑常规字段

单击“编辑字段”按钮。可以在下表中找到常规字段的可用选项。

选项	选项卡	描述
字段名称	不适用	字段的唯一名称。该字段不接受大写字母。只能包含小写字母、数字、下划线 `_` 和短划线 `-`。
内容类型	常规	字段的内容类型：字符串：适用于公司名称或地址，以及付款条款，或者适用于 RPA 开发者在 RPA 工作流中更喜欢手动构建解析逻辑或格式化逻辑的任何其他字段。数字：适用于金额或数量，具有小数/千位分隔符的智能解析功能。日期：模型以 yyyy-mm-dd 格式解析、格式化和统一输出。您可以指定应如何解析和返回不明确的日期。为此，请从“日期格式”选项中选择“非美式”(yyyy-mm-dd) 或“美式”(yyyy-dd-mm)。当日期明确时，此选项不会产生任何影响，并且仅受 ML 包版本 22.10.2 或更高版本支持。电话：适用于电话号码。设置格式会删除字母和括号，并将空格替换为短划线。 ID 号：适用于字母数字代码和 ID 号，类似于字符串内容类型，但包括清除冒号 (`:`) 之前的所有字符。如果要提取的 ID 号可能包含 `:` 字符，请改用字符串内容类型，以避免数据丢失。
后处理	高级	后处理机制。如果模型在给定页面上预测了某个字段的多个实例，则模型将返回： highest_confidence：具有最高置信度的值。 first_span：第一个值。 largest_value：最大的数值。该项仅对数字内容类型显示，并且适用于“总金额”字段。最长值：包含的字符数最多的值。
快捷方式	常规	字段的快捷键。允许使用一个或两个按键。
多行	常规	对于可能跨多个文本行的字段（地址或说明），请选中此复选框。否则，仅返回第一行。
多值	常规	选中此复选框，以将在文档中检测到的所有值显示为列表。您可以选中“多行”或“多值”复选框。
隐藏	常规	如果您不希望此字段成为导出的数据集的一部分，请选中此复选框。
计分	高级	用于在运行模型预测评估时确定准确度的方法。只能为字符串内容类型配置此选项。所有其他内容类型均使用精确匹配评分策略。选项：精确匹配：只有当预测与真实值完全匹配时，预测才会被视为正确（分数为 1）。如果预测与真实值有差别，即使只是一个字符的不同，预测也会被视为不正确（分数为 0）。 Levenshtein：根据预测与真实值之间的 Levenshtein 距离，预测被视为部分正确。如果系统除最后 2 个字符之外正确预测了 10 个字母组成的值，则该预测的分数为 0.8。
颜色	高级	字段的颜色，以十六进制格式表示。如果值无效，则生成一个新值。