document-understanding
latest
false
适用于新式体验的 Document Understanding 用户指南
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年10月4日

标注文档

Note: The prelabeling feature relies on UiPath DocPath, but only for tenants based in the Europe region. If your tenant is located in a region outside of Europe, this functionality uses the previous-generation model architecture.

After successfully creating your project and uploading your documents to a specific document type, they are automatically pre-annotated. This is done using a combination of generative and specialized models, based on the document type's schema. The schema clearly defines the fields you want to extract from a particular document type. To find the document type's schema, go to the Annotation page and check the Fields section.



预批注在文档中的文本上用下划线表示,并且无法删除。如果它们不正确并且无法与特定字段匹配,您可以忽略它们。在训练过程中,仅使用已确认的字段进行训练,而不考虑下划线。

As you continue to add more annotations, the pre-annotated underlines should progressively align with your input. There may be a few inconsistencies between underlines and user-annotated fields at the beginning. However, as you make more annotations and the model improves, the underlines should line up more precisely with the user-supplied data.

在下图中,“收货地址”已错误地预批注为包含人员姓名。



要解决此问题,您只需确认收货地址。无需删除与名称相关的带下划线的文本。当您继续批注并更正此类错误时,带下划线的文本与已确认的字段不一致的情况应该会减少。

备注:
  • 系统不会为自定义文档类型自动标注。您需要手动预标注自定义文档类型中的文档。
  • 要触发模型训练,至少需要 40 次操作。例如,如果您有 20 个文档,则每个文档至少需要批注 2 个字段,总共需要 40 次操作。
提示:要优化模型性能,请遵循“建议”部分中的建议。这些建议旨在提高模型的整体性能。


验证预批注的文档

上传并预批注所有文档后,您的目标是验证或修改预批注的字段。对于所有字段都已准确预批注的文档,请选择“确认”以一次批准所有字段。文档确认后,将在文档列表中显示绿色盾牌符号。



如果文档仅部分确认,则系统会在文档列表中以空的盾牌符号对其进行标记。这表示此特定文档的批注流程为“正在进行”。您的最终目标是确保所有文档都是“确认”状态。

在验证期间,您可能会遇到以下情况:
  • 预批注正确,应进行验证。
  • 预批注不正确,该字段存在于文档中。
  • 预标注不正确,文档中缺少该字段。
  • 没有预批注。

预标注正确,应进行验证

如果预标注准确无误,您可以通过选择带下划线的文本并选择“确认”或选中字段的确认复选框来进行确认。但是,最佳方法是按下分配给字段的热键(在此情况下为“N”)。


预标注不正确,该字段存在于文档中

如果预批注不正确,请选择正确的文本和字段,然后选择“确认”。

预标注不正确,文档中缺少该字段

如果预批注不正确且文档中缺少该字段,请选择字段名称旁边的三点图标 ⁝,然后选择“标记为缺失”。
重要提示:您也可以将错误的字段标记为缺失。例如,如果您的文档中没有“供应商地址”,但在处理过程中将另一个字段预标记为“供应商地址”,则您可以在验证期间将其标记为“缺失”。


无预批注

没有预批注的字段将显示为空单元格。您可以将这些单元格逐一标记为缺失,或通过选择“确认”按钮批量标记为缺失。

文档类型设置

您可以在“注释”视图中更改文档类型设置。

为此,请单击“文档类型名称”右侧的三点图标 ,然后选择“设置”。



您可以更改以下设置:
  • 基本模型:“建议操作”中使用的数据集大小估计值取决于用于训练的基本模型。使用与您的文档类型最相似的基本模型将减少所需的注释工作量。
  • 语言数量:“建议操作”中使用的数据集大小估计值取决于数据集中语言的数量。通常情况下,语言越多,需要添加注释的数据就越多。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。