UiPath Documentation
document-understanding
2024.10
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 用户指南

上次更新日期 2026年4月6日

标注文档

如需了解所需的文档数量,请参阅此页面。

For more details about how to assemble a high-quality dataset, check the Training High Performing Models page.

同一个文档中多次出现的字段

在许多情况下,某个字段会出现在同一文档甚至同一页面的多个位置中。只要它们具有相同的含义,这些都应加上标签。

例如,水电费账单的总金额。它通常显示在顶部、中间的行项目列表中,或在底部的工资单中,您可以将其分离,然后在邮件中随支票一起发送。在这种情况下,所有三个出现的事件都将被标记。这非常有用,因为在某些情况下,如果存在 OCR 错误或版式不同,并且无法识别一个字段,则模型仍可以识别其他出现的字段。

备注:

What counts is the meaning of the value, not the value itself. For instance, on some invoices which carry no tax, the net amount and the total amount have the same value. But they are clearly different concepts. Consequently, they should not be labelled both as total amount but only the one whose meaning is to represent the total amount.

多个用户并行加标签

您可以让多个用户同时使用同一实例添加标签,即使是在同一文档中也是如此。

如果对架构执行并发更改,则对于其中一个用户,更改将通过,而对于其他用户,系统将显示警告消息,指出无法执行更改。其他用户应立即刷新其浏览器以查看更改。

用于训练的标签

When you import a dataset without checking the Make this an Evaluation set checkbox on the Import Data dialog box, then that dataset is used for training and you only need to focus on the labeling of the model and both label and value (selectable words, grey boxes) on the document.

如果侧边栏字段中填充的文本有时不正确,这不是问题,因为 ML 模型仍会学习。在某些情况下,您可能需要调整字段的配置:例如,通过选中“多行”复选框。但是,总的来说,我们主要还是要为页面上的词语添加标签。

用于评估的标签

导入数据集时,如果选中“导入数据”对话框中的“将此设为评估集”复选框,则 AI Center 中的“训练管道”将不会使用该数据集,而只有“评估管道”会使用该数据集。

请务必在侧边栏(或列字段的顶栏中)填写正确的文本。这需要花费更长的时间来验证每个字段,但这是您获得正在构建的 ML 模型准确性可靠指标的唯一方法。

Document Manager 支持标记多页文档。因此,侧边栏中的字段在整个文档中具有单个值。这密切反映了 RPA 工作流中运行时的行为,并使 AI Center 中的评估管道能够生成反映 ML 模型实际运行时性能的真实分数。

但是,请谨记,与以前的版本相比(每个页面都需要单独标记),这是一个重大变化。标记和导出多页文档时,假设每个文档代表一个逻辑文档。例如,一个六页的文档可能包含单张六页的发票,但不应包含三张不同的发票(每张发票两页)。这对于评估集尤其重要。

标签操作

可以在同一个页面上的多个位置标记给定字段。

为字段添加标签

To select multiple words, select the first word and then Ctrl/Shift+click the rest of the desired words or select an entire area by dragging the mouse (the rubber banding) over it.

To unselect certain text boxes from your selection, while Ctrl/Shift is pressed, select or rubber band the unwanted text boxes again.

选择准确后,点击快捷键为字段添加标签。

Label a multivalued field

确保已选择字段的多值选项。

选择第一批信息,然后点击快捷键为字段添加标签。

重复上述步骤,直到多值字段的所有值已添加标记。

备注:

A multivalued field displays two values in its collapsed state and all values it its expanded state. Select the expand arrow from the multivalued field to expand and visualize the list of all tagged values.

删除标签

Select text boxes, then press the Delete or the Backspace key on your keyboard.

将表格行分组

After you have labelled some Column fields, and only if some rows span multiple lines of text, then you may group them together by pressing the / key to indicate that they are part of the same table row. A green box appears around the group.

将带标签的列字段分在一组时,系统会解析表格并将其显示在顶部,并突出显示提取的数据。

取消表格行分组

Select the group and press the / key again.

其他选项

选择标签

使用鼠标左键或右键选择框或查找有关框的更多信息。

  • 左键单击 - 选择框
  • 右键单击 - 选择框并显示有关 OCR 文本和当前标签的信息。
文档导航
  • Alt + 向左箭头/向右箭头 - 在文档之间导航。
文档缩放
  • Ctrl + 滚动 - 放大或缩小文档显示比例。
删除或恢复文档
  • Alt + Delete - 删除文档。
  • Alt + Delete - 恢复已删除的文档。

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新