activities
latest
false
- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
Document Understanding 活动
Last updated 2024年11月21日
分类文档作用域
UiPath.IntelligentOCR.Activities.DocumentClassification.ClassifyDocumentScope
属性面板
常见
- “显示名称”- 活动的显示名称。
输入
- 文档对象模型 - 要用于验证文档的文档对象模型 (DOM)。此模型存储在
Document
变量中,可以从数字化文档活动中检索。请访问数字化文档,了解如何使用该活动。此字段仅支持Document
变量。 - “文档路径”- 要验证的文档的路径。此字段仅支持字符串和
String
变量。注意:该属性字段支持的文件类型包括“.png
”、“.gif
”、“.jpe
”、“.jpg
”、“.jpeg
”、“.tiff
”、“.tif
”、“.bmp
”和“.pdf
”。 - 文档文本 - 文档本身的文本,存储在
String
变量中。您可以从“数字化文档”活动中检索此值。请访问数字化文档,了解如何使用该活动。此字段仅支持字符串和String
变量。 - “分类”- 要处理的文档的分类,存储在
DocumentTaxonomy
变量中。此字段仅支持DocumentTaxonomy
变量。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
输出
- “分类结果”- 对指定文件运行分类器文件的结果,存储在
IReadOnlyList<ClassificationResult>
对象中。此字段仅支持IReadOnlyList<ClassificationResult>
变量。
“分类结果”对象包含以下信息:
- “文档类型 ID”- 与“分类”匹配的文档类型所对应的 ID。
- “文档 ID”- 已处理文档的文件名。
- “内容类型”- 已处理文档中包含的内容类型。
- 可信度 - 分类可信度,以
0
到1
之间的数值显示。 - OCR 可信度 - 报告的引用中所含字符的 OCR 可信度,以
0
到1
之间的数值显示。 - “引用”- 分类的证明,可用于文档的文本版(通过“
TextStartIndex
”和“TextLength
”)和“文档对象模型”(通过“Tokens
”以及用于从中选取证明的每个页面的高亮显示框)。 - “文档边界”- 用于描述分类所属的文档部分,包括“
StartPage
”(“Int32
”,从 0 开始)、“PageCount
”(“Int32
”)、“TextStartIndex
”(“Int32
”,从 0 开始)、“TextLength
”(“Int32
”)。 -
“分类器名称”- 由“分类文档作用域”活动自动填充,将填充为用于报告当前“分类结果”的分类器的显示名称。
注意:ClassificationResults
将所有内容按可信度分数降序排列,这表示最顶部的内容具有最高可信度。
“ 配置分类器向导 ”允许您配置将分类器应用于每种文档类型的方式,以及可接受的结果。
请按照以下步骤配置向导:
- 将“对文档范围进行分类”活动添加到工作流中。
- 向“对文档范围进行分类”活动添加一个或多个分类器活动。
- 为您的分类器提供暗示性名称。
- 按接受优先级的顺序,从左到右对范围内的分类器排序。
- 选择“配置分类器”按钮,以配置分类器。
您现在可以看到向导图 1.“配置分类器”向导概览
- 选中要激活的分类器和文档类型对的复选框。取消选中某个分类器的文档类型可能出现在以下任一情况:
- 未训练或配置分类器,无法识别该特定文档类型
- 分类器对该特定文档类型的执行不如预期,如果分类器返回此类结果,则应将其忽略。
- 如果分类器具有自己的分类,则使用每个复选框旁边的文本框设置两个分类之间正确的分类映射。例如,如果已将 Classifier1 配置为返回“发票”的类
INV
,但您的项目分类包含一个名为“传入发票”的文档类型,则与“传入发票”相对应的方框和特定的 Classifier1 应包含字符串INV
。 - 在“分类文档作用域”页面中,为每个分类器设置一个介于 0 到 100 之间的“最低可信度”阈值。置信度低于此阈值的任何分类结果都不会存储在“分类文档作用域”活动的输出中。
提示:大多数文档类型都会生成具有置信度的预测。设置此属性后,可通过仅考虑置信度高于阈值的预测来防止误报。例如,您可以通过测试工作流中的各种文档来确定最佳置信度,并将结果记录在 Excel 电子表格中,然后分析哪个阈值最准确。通过调整当前作用域中的“最低可信度”属性来应用阈值。
- 配置所有分类器后,选择“保存”。
图 2. 配置为对每种文档类型使用不同分类器的“配置分类器”向导
分类文档作用域活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南。