document-understanding

2024.10

true

Document Understanding 用户指南

适用平台：

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

上次更新日期 2024年12月18日

标注文档

如需了解所需的文档数量，请参阅管道。

有关如何组合高质量数据集的更多详细信息，请参阅“训练高性能模型”。

同一个文档中多次出现的字段

在许多情况下，某个字段会出现在同一文档甚至同一页面的多个位置中。只要它们具有相同的含义，这些都应加上标签。

例如，水电费账单的总金额。它通常显示在顶部、中间的行项目列表中，或在底部的工资单中，您可以将其分离，然后在邮件中随支票一起发送。在这种情况下，所有三个出现的事件都将被标记。这非常有用，因为在某些情况下，如果存在 OCR 错误或版式不同，并且无法识别一个字段，则模型仍可以识别其他出现的字段。

注意：重要的是值的含义，而不是值本身。例如，对于一些不含税的发票，净额和总金额具有相同的值。但它们显然是不同的概念。因此，不应将两者同时标记为总金额，而应仅将其中含义为总金额的标记为总金额。

多个用户并行加标签

您可以让多个用户同时使用同一实例添加标签，即使是在同一文档中也是如此。

如果对架构执行并发更改，则对于其中一个用户，更改将通过，而对于其他用户，系统将显示警告消息，指出无法执行更改。其他用户应立即刷新其浏览器以查看更改。

用于训练的标签

当您导入一个数据集而不选中“导入数据”对话框中的“将此设为评估集”复选框，那么该数据集将被用于训练，您只需要专注于为模型添加标签以及有关文档的标签和值（可选择的单词，灰框）。

如果侧边栏字段中填充的文本有时不正确，这不是问题，因为 ML 模型仍会学习。在某些情况下，您可能需要调整字段的配置：例如，通过选中“多行”复选框。但是，总的来说，我们主要还是要为页面上的词语添加标签。

用于评估的标签

导入数据集时，如果选中“导入数据”对话框中的“将此设为评估集”复选框，则 AI Center 中的“训练管道”将不会使用该数据集，而只有“评估管道”会使用该数据集。

请务必在侧边栏（或列字段的顶栏中）填写正确的文本。这需要花费更长的时间来验证每个字段，但这是您获得正在构建的 ML 模型准确性可靠指标的唯一方法。

Document Manager 支持标记多页文档。因此，侧边栏中的字段在整个文档中具有单个值。这密切反映了 RPA 工作流中运行时的行为，并使 AI Center 中的评估管道能够生成反映 ML 模型实际运行时性能的真实分数。

但是，请谨记，与以前的版本相比（每个页面都需要单独标记），这是一个重大变化。标记和导出多页文档时，假设每个文档代表一个逻辑文档。例如，一个六页的文档可能包含单张六页的发票，但不应包含三张不同的发票（每张发票两页）。这对于评估集尤其重要。

标签操作

请参见下文，了解在标记文档时需要执行的主要操作。可以在同一个页面上的多个位置标记给定字段。

为字段添加标签

单击以选择单个文本框。

要选择多个字词，请单击第一个字词，然后按 Ctrl/Shift 并单击其余字词，或通过拖动鼠标（橡皮筋）来选择整个区域。

要从您的选择中取消选择某些文本框，请在按 Ctrl/Shift 的同时再次单击或用橡皮筋将不需要的文本框括起来。

选择准确后，点击快捷键为字段添加标签。

Label a multivalued field

确保已选择字段的多值选项。

选择第一批信息，然后点击快捷键为字段添加标签。

重复上述步骤，直到多值字段的所有值已添加标签。

注意：多值字段在折叠状态下显示两个值，在展开状态下显示所有值。单击多值字段中的展开箭头，以展开并可视化所有已标记值的列表。

删除标签

选择文本框，然后按键盘上的 Delete 或 Backspace 键。

将表格行分组

标记某些列字段后，仅当某些行跨越多行文本时，才可以通过按 / 键将它们分组到一起，以指示它们属于同一表格行。该组周围将出现一个绿色框。

将带标签的列字段分在一组时，系统会解析表格并将其显示在顶部，并突出显示提取的数据。

取消表格行分组

选择该组，然后再次按 / 键。

其他选项

选择标签

使用鼠标左键或右键选择框或查找有关框的更多信息。

左键单击 - 选择框
右键单击 - 选择框并显示有关 OCR 文本和当前标签的信息。

文档缩放

Ctrl + 滚动 - 放大或缩小文档显示比例。

删除或恢复文档

Alt + Delete - 删除文档。
Alt + Delete - 恢复已删除的文档。

在此页面上

同一个文档中多次出现的字段
多个用户并行加标签
用于训练的标签
用于评估的标签
标签操作
为字段添加标签
Label a multivalued field
删除标签
将表格行分组
取消表格行分组
其他选项

此页面有帮助吗？

前一个导入文档

下一个搜索文档

获取您需要的帮助

了解 RPA - 自动化课程

UiPath Community 论坛