Document Understanding
最新
False
横幅背景图像
预览
适用于新式体验的 Document Understanding 用户指南
上次更新日期 2024年4月26日

构建

本部分会介绍以下体验:
  • 上传文档并自动对其进行分类。
  • 直接将文档上传到文档类型中。
  • 管理项目中的文件(添加、删除文件以及添加、更改标签)。
  • 标注文档。
  • 添加或删除字段。
  • 添加或删除业务规则。
  • 获得有关使用建议训练分类和提取模型的指导性体验。

上传文档

成功创建项目后,您可以从“构建”部分上传文档。
  1. 打开项目。
  2. 将第一批示例文档拖放到“上传示例文档”部分。
    提示:您可以使用“建议”部分中的建议。这些建议将指导您完成整个流程。
    系统会自动处理上传的文件(已上传、数字化、已分类、已添加批注)。
  3. 单击“上传”,上传下一批示例文档。
    提示:您可以查看“建议”部分,以获取建议,了解更多上传的有用内容。例如,如果 utility_bills 文档数量太少,系统会显示建议:

    utility_bills 的样本太少。至少添加 150 个文档以获得最佳数据集大小。

    有两种类型的建议,一种用于分类,一种用于提取模型。


  4. 审核上传的文档。
    1. 展开所需的部分(例如,发票收据)。
    2. 单击文档名称。
    3. 检查自动填写的文档类型是否正确。您可以使用下拉列表更改文档类型。

标注文档

成功创建项目并上传文档后,您可以从“构建”部分为文档添加注释。

您可以单击“标注”,从文档类型部分开始标注文档。

您还可以单击文档名称旁边的三点图标 ,然后选择“注释”来注释特定文档。
提示:系统会自动处理上传的文档(已上传、已数字化、已分类,包括已添加注释)。对于高性能模型,请遵循“建议”部分中的建议。这些建议可帮助您提高模型的整体性能。
注意:系统不会为自定义文档类型自动标注。您需要手动为自定义文档类型中的文档预加标签。


验证预加标签的文档

系统会自动为上传的属于已知文档类型的文档添加预标签。您可以在“注释”视图中验证这一点。

在验证期间,您可能会遇到以下情况:
  • 预加标签正确无误,应进行验证。
  • 缺少预加标签,应标上此类标签。
  • 预加标签不正确,应进行编辑。

如果已正确标注文档中的所有字段,请单击“确认”以一次验证所有字段。

文档经过验证后,系统将在文档列表中为其应用绿色盾牌标记。



正确的预加标签

如果字段正确,请选中该字段旁边的复选框。在我们的示例中,第一个字段是“供应商名称”,并且已附带正确标记。要进行验证,请单击字段旁边的复选框。


缺少预加标签

如果没有与该字段相关的预加标签,请单击字段名称旁边的三点图标 ,然后选择“标记为缺失”
重要提示:您也可以将错误的字段标记为缺失。例如,如果您的文档中没有“供应商地址”,但在处理过程中将另一个字段预标记为“供应商地址”,则您可以在验证期间将其标记为“缺失”。


预加标签不正确

如果预加标签不正确,您可以手动更正该字段。

您可以通过创建新字段来手动为字段添加标签。为此,您可以通过直接将选择框拖放到文档上,然后从下拉列表中选择所需的字段名称来选择所需的信息。

注意:系统会自动对手动注释的所有字段进行验证。

文档类型设置

您可以在“注释”视图中更改文档类型设置。

为此,请单击“文档类型名称”右侧的三点图标 ,然后选择“设置”。



您可以更改以下设置:
  • 基本模型:“建议操作”中使用的数据集大小估计值取决于用于训练的基本模型。使用与您的文档类型最相似的基本模型将减少所需的注释工作量。
  • 布局数量:“建议操作”中使用的数据集大小估计值取决于数据集中布局的数量。通常情况下,布局越多,需要添加注释的数据就越多。
  • 语言数量:“建议操作”中使用的数据集大小估计值取决于数据集中语言的数量。通常情况下,语言越多,需要添加注释的数据就越多。

搜索文档

You can search uploaded documents by document name. To do so, use the search bar from the left corner of the Build section. For a more efficient search, use the Filter feature to filter by:
  • 文档类型:从下拉列表中选择所需的文档类型。
  • 上传日期:选择上传文档的日期间隔。
  • 状态:选择文档的状态


项目和模型分数

您可以从右上角查看项目的总体分数。此分数是所有文档类型的分类器分数和提取程序分数的影响因素。单击“项目分数”以显示“衡量指标”部分。您可以在该部分中查看更深入的性能衡量指标。

您可以在“文档类型”部分单独查看每种文档类型的分数。此分数会影响模型的整体性能以及数据集的大小和质量。

注意:要获取项目分数,您需要上传至少 10 个文档。对于文档类型分数,您至少在同一文档类型下有 10 个文档。


如果选择分数标签,则可以查看模型的模型评分。模型评分是一项功能,旨在帮助您为分类模型的性能实现可视化。具体表现形式为 0 到 100 之间的模型分数,如下所示:
  • 差 (0-49)
  • 一般 (50-69)
  • 良好 (70-89)
  • 非常好 (90-100)

选择“详细模型分数”以转到“衡量指标”部分以获取详细信息。



  • 上传文档
  • 标注文档
  • 验证预加标签的文档
  • 文档类型设置
  • 搜索文档
  • 项目和模型分数

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.