活动 - 对文档范围进行分类

activities

latest

false

Document Understanding 活动

重要 :

请注意，此内容已使用机器翻译进行了部分本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

分类文档作用域

通过使用“分类文档范围”活动限定多个分类器活动的范围，配置和运行文档分类。

UiPath.IntelligentOCR.Activities.DocumentClassification.ClassifyDocumentScope

描述

为分类器活动提供作用域，进而提供执行文档分类所需的所有必要文件。至少接受一个分类器或接受分类器之间的多个代理，确保将所有参数转发到子分类活动。

项目兼容性

Windows

配置

属性面板

常见

“显示名称”- 活动的显示名称。

输入

文档对象模型- 要用于验证文档的文档对象模型 (DOM)。此模型存储在Document变量中，可以从“数字化文档”活动中检索。请访问数字化文档，了解如何使用该活动。此字段仅支持Document变量。
文档路径 - 要验证的文档的路径。此字段仅支持字符串和 String 变量。
备注：
该属性字段支持的文件类型包括“.png”、“.gif”、“.jpe”、“.jpg”、“.jpeg”、“.tiff”、“.tif”、“.bmp”和“.pdf”。
“文档文本” - 文档本身的文本，存储在String变量中。您可以从“数字化文档”活动中检索此值。请访问数字化文档，了解如何使用该活动。此字段仅支持字符串和String变量。
“分类”- 处理文档要依据的分类，存储在“DocumentTaxonomy”变量中。该字段仅支持“DocumentTaxonomy”变量。

其他

“私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。

输出

“分类结果”- 对指定文件运行分类器文件后所得的结果，存储在“IReadOnlyList<ClassificationResult>”对象中。该字段仅支持“IReadOnlyList<ClassificationResult>”变量。

“分类结果”对象包含以下信息：

“文档类型 ID”- 与“分类”匹配的文档类型所对应的 ID。
“文档 ID”- 已处理文档的文件名。
“内容类型”- 已处理文档中包含的内容类型。
“可信度” - 分类可信度，以介于0和1之间的数值显示。
“OCR 可信度” - 报告的引用中所含字符的 OCR 可信度，以0到1之间的数值显示。
“引用”- 分类的证明，可用于文档的文本版（通过“TextStartIndex”和“TextLength”）和“文档对象模型”（通过“Tokens”以及用于从中选取证明的每个页面的高亮显示框）。
“文档边界”- 用于描述分类所属的文档部分，包括“StartPage”（“Int32”，从 0 开始）、“PageCount”（“Int32”）、“TextStartIndex”（“Int32”，从 0 开始）、“TextLength”（“Int32”）。
“分类器名称”- 由“分类文档作用域”活动自动填充，将填充为用于报告当前“分类结果”的分类器的显示名称。
备注：
“ClassificationResults”将所有内容按可信度分数降序排列，这表示最顶部的内容具有最高可信度。

使用“配置分类器”向导

The Configure Classifiers Wizard allows you to configure the way the classifiers are applied to each document type, and what results are acceptable.

请按照以下步骤配置向导：

将“对文档范围进行分类”活动添加到工作流中。
向“对文档范围进行分类”活动添加一个或多个分类器活动。
1. 为您的分类器提供暗示性名称。
2. 按接受优先级的顺序，从左到右对范围内的分类器排序。
3. 选择 “配置分类器” 配置分类器。
  
  您现在可以看到向导
  
  图 1. “配置分类器”向导概览
选中要激活的分类器和文档类型对的复选框。取消选中某个分类器的文档类型可能出现在以下任一情况：
- 未训练或配置分类器，无法识别该特定文档类型
- 分类器对该特定文档类型的执行不如预期，如果分类器返回此类结果，则应将其忽略。
如果分类器具有自己的分类，则使用每个复选框旁边的文本框设置两个分类之间正确的分类映射。例如，如果已将 Classifier1 配置为返回“发票”的类 INV，但您的项目分类包含一个名为“传入发票”的文档类型，则与“传入发票”相对应的方框和特定的 Classifier1 应包含字符串 INV。
在“分类文档作用域”中为每个分类器设置一个介于 0 到 100 之间的“最低可信度”阈值。置信度低于此阈值的任何分类结果都不会存储在“分类文档作用域”活动的输出中。

提示：
大多数文档类型都会生成具有置信度的预测。设置此属性后，可通过仅考虑置信度高于阈值的预测来防止误报。例如，您可以通过测试工作流中的各种文档来确定最佳置信度，并将结果记录在 Excel 电子表格中，然后分析哪个阈值最准确。通过调整当前作用域中的“最低可信度”属性来应用阈值。
配置所有分类器后，选择“保存” 。

图 2. 配置为对每种文档类型使用不同分类器的“配置分类器”向导

Document Understanding 集成

分类文档作用域活动是 Document Understanding 解决方案的一部分。如需了解详情，请访问Document Understanding 指南。

在此页面上

描述
项目兼容性
配置
属性面板
输出
使用“配置分类器”向导
Document Understanding 集成

此页面有帮助吗？

前一个将文档数字化

下一个基于关键词的分类器

描述​

项目兼容性​

配置​

属性面板​

常见​

输入​

其他​

输出​

使用“配置分类器”向导​

Document Understanding 集成​

此页面有帮助吗？

描述

项目兼容性

配置

属性面板

常见

输入

其他

输出

使用“配置分类器”向导

Document Understanding 集成