activities
latest
false
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
UiPath logo, featuring letters U and I in white
Document Understanding 活动
Last updated 2024年11月21日

分类文档作用域

UiPath.IntelligentOCR.Activities.DocumentClassification.ClassifyDocumentScope

描述

为分类器活动提供作用域,进而提供执行文档分类所需的所有必要文件。至少接受一个分类器或接受分类器之间的多个代理,确保将所有参数转发到子分类活动。

项目兼容性

Windows - Legacy | Windows

配置

属性面板

常见

  • “显示名称”- 活动的显示名称。

输入

  • 文档对象模型 - 要用于验证文档的文档对象模型 (DOM)。此模型存储在 Document 变量中,可以从数字化文档活动中检索。请访问数字化文档,了解如何使用该活动。此字段仅支持 Document 变量。
  • “文档路径”- 要验证的文档的路径。此字段仅支持字符串和 String 变量。
    注意:该属性字段支持的文件类型包括“.png”、“.gif”、“.jpe”、“.jpg”、“.jpeg”、“.tiff”、“.tif”、“.bmp”和“.pdf”。
  • 文档文本 - 文档本身的文本,存储在 String 变量中。您可以从“数字化文档”活动中检索此值。请访问数字化文档,了解如何使用该活动。此字段仅支持字符串和 String 变量。
  • “分类”- 要处理的文档的分类,存储在 DocumentTaxonomy 变量中。此字段仅支持 DocumentTaxonomy 变量。

其他

  • “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
输出
  • “分类结果”- 对指定文件运行分类器文件的结果,存储在 IReadOnlyList<ClassificationResult> 对象中。此字段仅支持 IReadOnlyList<ClassificationResult> 变量。

“分类结果”对象包含以下信息:

  • “文档类型 ID”- 与“分类”匹配的文档类型所对应的 ID。
  • “文档 ID”- 已处理文档的文件名。
  • “内容类型”- 已处理文档中包含的内容类型。
  • 可信度 - 分类可信度,以 01 之间的数值显示。
  • OCR 可信度 - 报告的引用中所含字符的 OCR 可信度,以 01 之间的数值显示。
  • “引用”- 分类的证明,可用于文档的文本版(通过“TextStartIndex”和“TextLength”)和“文档对象模型”(通过“Tokens”以及用于从中选取证明的每个页面的高亮显示框)。
  • “文档边界”- 用于描述分类所属的文档部分,包括“StartPage”(“Int32”,从 0 开始)、“PageCount”(“Int32”)、“TextStartIndex”(“Int32”,从 0 开始)、“TextLength”(“Int32”)。
  • “分类器名称”- 由“分类文档作用域”活动自动填充,将填充为用于报告当前“分类结果”的分类器的显示名称。

    注意:ClassificationResults 将所有内容按可信度分数降序排列,这表示最顶部的内容具有最高可信度。

使用“配置分类器”向导

配置分类器向导 ”允许您配置将分类器应用于每种文档类型的方式,以及可接受的结果。

请按照以下步骤配置向导:

  1. 将“对文档范围进行分类”活动添加到工作流中。
  2. 向“对文档范围进行分类”活动添加一个或多个分类器活动。
    1. 为您的分类器提供暗示性名称。
    2. 按接受优先级的顺序,从左到右对范围内的分类器排序。
    3. 选择“配置分类器”按钮,以配置分类器。
      您现在可以看到向导
      图 1.“配置分类器”向导概览

  3. 选中要激活的分类器和文档类型对的复选框。取消选中某个分类器的文档类型可能出现在以下任一情况:
    • 未训练或配置分类器,无法识别该特定文档类型
    • 分类器对该特定文档类型的执行不如预期,如果分类器返回此类结果,则应将其忽略。
  4. 如果分类器具有自己的分类,则使用每个复选框旁边的文本框设置两个分类之间正确的分类映射。例如,如果已将 Classifier1 配置为返回“发票”的类 INV,但您的项目分类包含一个名为“传入发票”的文档类型,则与“传入发票”相对应的方框和特定的 Classifier1 应包含字符串 INV
  5. 在“分类文档作用域”页面中,为每个分类器设置一个介于 0 到 100 之间的“最低可信度”阈值。置信度低于此阈值的任何分类结果都不会存储在“分类文档作用域”活动的输出中。
    提示:大多数文档类型都会生成具有置信度的预测。设置此属性后,可通过仅考虑置信度高于阈值的预测来防止误报。例如,您可以通过测试工作流中的各种文档来确定最佳置信度,并将结果记录在 Excel 电子表格中,然后分析哪个阈值最准确。通过调整当前作用域中的“最低可信度”属性来应用阈值。
  6. 配置所有分类器后,选择“保存”。
    图 2. 配置为对每种文档类型使用不同分类器的“配置分类器”向导

Document Understanding 集成

分类文档作用域活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。