Document Understanding 用户指南

适用平台：

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

上次更新日期 2024年10月24日

复选框和签名

复选框

使用复选框的多选字段可能有几种不同的类型。首先是互斥类型，然后是非互斥类型，在后者中可以选择多个选项。另一个重要方面是给定多选字段的可用选项数量。在某些情况下，可能只有一个选项，即复选框是否处于选中状态，而在其他情况下，可能有 10、20 或更多选项，以网格或表格的形式排列，就像许多体检表单一样。

您可以通过四种主要方式来为这些类型的多项选择字段添加标签。

为选项添加标签

我们通过一个示例来了解如何为选项添加标签。表单可以包含“项目”或“策略”选项。在这种情况下，您只有一个字段，并且只需标记所选单词，即如果选中了“Project”旁边的复选框，则标记单词“Project”；如果选中“Policy”旁边的复选框，则标记单词“Policy”。如果两者均未选中，则两者均不标记。两者无法同时选中，此类文档只会从训练集中删除。

此方法的优点是您只有一个字段，需要的数据较少。它的另一个优点是不依赖于复选框的成功检测。如果复选框被检测为字母 X，则模型仍可以学习去识别这意味着它旁边的选项已被选中。

缺点是您需要确保两个选项的代表性大致相同，但情况并非总是如此。在您的训练集中，90% 的文档可能已选中“项目”。在这种情况下，模型无法正常运行，并且此方法会失败。当您有更多选项时，问题会变得更糟，因为其中一些选项几乎总是很少见。在这些情况下，您可能需要创建虚假文档，并选中稀有选项以平衡问题。

为复选框添加标签，每个复选框使用单独的字段

在上面的示例中，您可能有一个名为“项目”的字段，您在其中始终将其复选框标记为“项目”，以及一个名为“策略”的字段，您始终将其复选框标记为“策略”，无论这些复选框是否处于选中状态。这样做的好处是，平衡的重要性要小得多，即使其中一个选项在 90% 的情况下都处于选中状态，模型仍会学习识别它们，因为复选框始终位于同一位置。

缺点是您有两个字段，而不是一个字段。当有两个选项时，这可能没什么问题，但是当使用 10 到 20 个字段而非一个字段时，添加标签会变得更加困难，并且模型更难训练，需要更多训练数据。

另一个缺点是，有时可能无法正确检测到复选框，您可能需要在工作流中添加更复杂的逻辑，以处理返回的所有 X、V 或 K 字符。在某些情况下，OCR 甚至可能会将复选框与其旁边的单词合并，例如 XProject，这需要更复杂的 RPA 逻辑来处理这种情况。

使用单个多值字段仅为复选框添加标签

多值字段是 Document Understanding 2022.10 版本的一部分。这样可以更轻松地添加标签，并且不受选中的不平衡选项的影响，而且在存在大量选项时也不会受到影响。但是，它仍然依赖于复选框检测的准确性，或者存在复选框可能与其旁边的选项合并的风险。OCR 错误很难防御。

使用单个多值字段为选项添加标签

这也使添加标签更容易，对复选框检测错误不那么敏感，但可能对不平衡的选项更敏感，就像第一个选项一样。

根据我们的经验，在某些情况下，所有这些选项都可能适用。我们最初更喜欢第一个选项，但是，随着 UiPath 文档 OCR 中复选框检测的准确性的提高，我们更倾向于第二和第三个选项。第二和第三个选项还具有另一个主要优势：它们兼容 Forms AI 和我们基于 AI Center 的 ML 包。因此，您可以从 Forms AI 开始，如果发现准确性低于预期，您只需将数据集移动到 Document Manager 会话，并直接训练 ML 模型，而无需进行任何其他更改。随着我们的 ML 包变得更强大并且需要的训练数据更少，此选项变得特别受欢迎。