document-understanding
latest
false
Document Understanding 用户指南
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年9月12日

构建

本部分会介绍以下体验:
  • 上传文档并自动对其进行分类。
  • 直接将文档上传到文档类型中。
  • 管理项目中的文件(添加、删除文件以及添加、更改标签)。
  • 标注文档。
  • 添加或删除字段。
  • 添加或删除业务规则。
  • 获得有关使用建议训练分类和提取模型的指导性体验。

标注文档

成功创建项目并将文档上传到特定文档类型后,系统会自动为文档预添加批注。这是根据文档类型的架构,使用专门的模型来完成的。架构明确定义了要从特定文档类型中提取的字段。要查找文档类型的架构,请转到“批注”页面并查看“字段”部分。



For more in-depth information on how to annotate your documents, check the Annotate documents how-to page.

编辑字段设置

您可以在“文档类型管理器”中编辑多个字段的设置。

为此,请选择要编辑的文档类型旁边的三点图标 ,然后从菜单中选择“文档类型管理器”。

图 1. 选择文档类型管理器

编辑或添加新字段

要添加新字段,请选择“添加字段”并填写所需信息。您可以为每个字段添加或编辑以下选项:
  • 字段名称:字段的唯一名称。
  • 内容类型:字段的内容类型:
    • 字符串:用于公司名称或地址,以及付款条款,或者当您想要在 RPA 工作流中的其他字段中手动构建解析逻辑或格式设置逻辑时,用于这些字段。
    • 数字:用于金额或数量,具有小数/千位分隔符的智能解析功能。
    • 日期:使用 YYYY-MM-DD 格式解析、格式化和统一输出。
    • 电话:用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
    • ID 号:用于字母数字代码和 ID 号。它类似于字符串内容类型,但会删除 : 字符之前的所有字符。如果要提取的 ID 号可能包含 : 字符,请改用 string 内容类型,以避免数据丢失。
  • 快捷键:字段的快捷键。允许使用一个键或两个键的组合。
  • 高级设置:可用选项因所选字段的内容类型而异。选择所需字段的“高级设置”按钮以进行编辑:
    图 2. 文档类型高级设置

    • 字段 ID:字段的唯一 ID。
    • 后处理
      • first_span:如果模型预测了文档内某一字段的多个实例,则让模型返回第一个实例。
      • longest_value:如果模型预测了文档内某一字段的多个实例,则让模型返回字符数最多的值。
      • highest_confidence:如果模型预测了文档内某一字段的多个实例,则让模型返回具有最高置信度的值。
      评分:运行模型预测评估时用于确定准确度的度量,仅适用于内容类型为“字符串”的字段:
      • exact_match:只有当预测与真实值完全匹配时,预测才会被视为正确(分数为 1)。如果预测与真实值有差别,即使只是一个字符的不同,预测也会被视为不正确(分数为 0)。这是所有字段(“字符串”字段除外)的默认设置。
      • levenshtein:根据预测与真实值之间的 Levenshtein 距离,预测被视为部分正确。示例:如果系统除最后 2 个字母之外正确预测了 10 个字母组成的值,则此预测的分数为 0.8。
    • 日期格式:此字段仅适用于内容类型为“日期”的字段,并且指示如何解析和返回不明确的日期:
      • 自动
      • 美式:YYYY-DD-MM
      • 非美式:YYYY-MM-DD
    • Multi-line:跨越多个文本行的字段(地址或说明)需要检查此项目,否则系统将只返回第一行。
    • Multi-value:字段将返回一个列表,其中包含在文档中检测到的所有值。

如果您在重新触发训练之前发布新的项目版本,则文档类型设置中的更改不会反映在新的项目版本中。

解决方法:为避免这种情况,请在修改文档类型字段后重新训练文档类型。在发布新版本之前,您可以通过标记或确认该类型的其他文档来完成此操作。

模型设置

您可以在“模型设置”视图中更改文档类型设置。为此,请选择“模型设置”。

图 3. 模型设置

您可以更改以下设置:

  • 基本模型:“建议操作”中使用的数据集大小估计值取决于用于训练的基本模型。使用与您的文档类型最相似的基本模型将减少所需的注释工作量。
  • 布局数量:“建议操作”中使用的数据集大小估计值取决于数据集中布局的数量。通常情况下,布局越多,需要添加注释的数据就越多。
  • 语言数量:“建议操作”中使用的数据集大小估计值取决于数据集中语言的数量。通常情况下,语言越多,需要添加注释的数据就越多。

搜索字段名称

您可以搜索可用的字段名称。为此,请使用“文档类型管理器”界面左上角的搜索栏。为了更高效地搜索,请使用“筛选”功能按“内容类型”进行筛选。

图 4. 搜索字段名称

删除字段

在要删除的字段旁边选择“删除”。

图 5. 删除字段

您也可以选择多个(或全部)字段,然后一次性将其删除。为此,请选中要删除的字段旁边的复选标记,然后单击“删除”。
图 6.一次删除多个字段

搜索文档

您可以按文档名称搜索上传的文档。为此,请使用“构建”部分左侧的搜索栏。为了更有效地搜索,请使用“筛选”功能,按以下条件筛选:
  • 文档类型:从下拉列表中选择所需的文档类型。
  • 上传日期:选择上传文档的日期间隔。
  • 状态:选择文档的状态


项目和模型分数

您可以从右上角查看项目的总体分数。此分数是所有文档类型的分类器分数和提取程序分数的影响因素。单击“项目分数”以显示“衡量指标”部分。您可以在该部分中查看更深入的性能衡量指标。

您可以在“文档类型”部分单独查看每种文档类型的分数。此分数会影响模型的整体性能以及数据集的大小和质量。

注意:要获取项目分数,您需要上传至少 10 个文档。对于文档类型分数,您至少在同一文档类型下有 10 个文档。


如果选择分数标签,则可以查看模型的模型评分。模型评分是一项功能,旨在帮助您为分类模型的性能实现可视化。具体表现形式为 0 到 100 之间的模型分数,如下所示:
  • 差 (0-49)
  • 一般 (50-69)
  • 良好 (70-89)
  • 非常好 (90-100)

选择“详细模型分数”以转到“衡量指标”部分以获取详细信息。



  • 标注文档
  • 编辑字段设置
  • 编辑或添加新字段
  • 模型设置
  • 搜索字段名称
  • 删除字段
  • 搜索文档
  • 项目和模型分数

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。