- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- FieldValue Class
- FieldValueResult Class
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- FieldValueDetails Class
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- 基本数据点类 - 预览
- 提取结果处理程序类 - 预览
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- 发行说明
- 关于“智能 OCR”活动包
- 项目兼容性
- 加载分类
- 将文档数字化
- 分类文档作用域
- 基于关键词的分类器
- Document Understanding 项目分类器
- 智能关键词分类器
- 创建文档分类操作
- 创建文档验证工件
- 检索文档验证工件
- 等待文档分类操作然后继续
- 训练分类器范围
- 基于关键词的分类训练器
- 智能关键词分类训练器
- 数据提取作用域
- Document Understanding 项目提取程序
- Document Understanding 项目提取程序训练器
- 基于正则表达式的提取程序
- 表单提取程序
- 智能表单提取程序
- 文档脱敏
- 创建文档验证操作
- 等待文档验证操作然后继续
- 训练提取程序范围
- 导出提取结果
- 机器学习提取程序
- 机器学习提取程序训练器
- 机器学习分类器
- 机器学习分类训练器
- 生成分类器
- 生成式提取程序
- 配置身份验证
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
Document Understanding 活动
UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier
描述
此活动使任何用户都可以对文档包进行分类并将其拆分为单独的文档类型。该活动只能与“分类文档作用域”活动一起使用。
项目兼容性
Windows - Legacy | Windows
配置
设计器面板
-
LearningFilePath - The full path to the file containing the classifier data. This field supports only strings and
Stringvariables.备注:Only one of the above parameters can be set at a time. You can use either the LearningData string or the LearningFilePath string.
The LearningFilePath specifies the locations from where to retrieve the classifier data.
The LearningData contains the actual information of that classifier.
-
端点- UiPath™ 服务器的 URL。默认情况下,端点为
https://du.uipath.com/svc/intelligentkeywords。有关端点的更多信息,请参阅Document Understanding 公共端点。 -
ApiKey - Specifies the API key of the account. The API Key field is automatically pre-populated if defined in local project settings or in the Document Understanding framework.
属性面板
常见
- “显示名称”- 活动的显示名称。
输入
-
ApiKey - Specifies the API key of the account. The API Key field is automatically pre-populated if defined in local project settings or in the Document Understanding framework.
-
端点- UiPath™ 服务器的 URL。默认情况下,端点为
https://du.uipath.com/svc/intelligentkeywords。有关端点的更多信息,请参阅Document Understanding 公共端点。 -
LearningData - The string containing the serialized classifier data. This field supports only strings and
Stringvariables. -
LearningFilePath - The full path to the file containing the classifier data. This field supports only strings and
Stringvariables.备注:Only one of the above parameters can be set at a time. You can use either the LearningData string or the LearningFilePath string.
The LearningFilePath specifies the locations from where to retrieve the classifier data.
The LearningData contains the actual information of that classifier.
-
发送文档- 启用后,允许 UiPath™ 保存引用的文档以提高算法性能。禁用此功能可阻止 UiPath™ 存储文档。无论此设置如何,算法的操作都不会受到影响。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
备注:
The best practice is to create an empty
.jsonfile at that location, then use its name in the LearningFilePath field.
拆分
- 执行文档拆分 - 如果取消选中,模型将不执行文档拆分,仅执行分类。
- 使用页码 - 如果选中,则该模式将使用页码功能来决定拆分文档的位置。如果页码可能会改善拆分结果,请使用它。
为了优化拆分性能,请使用 6.9.0 或更高版本。
使用“管理学习”向导
Access the Manage Learning wizard to configure the Intelligent Keyword Classifier activity. The same wizard can be used for reviewing data collected during the document classification training phase, by opening the same wizard with an updated learning file path.
This wizard allows you to configure and manage the training data used by the Intelligent Keyword Classifier activity for identifying the document type and classifying the documents. It was created to suit the need for editing a file path. If a Learning Data option with a variable is used instead, then you are asked if you either want to edit a specific file path or to abort this operation.
“管理学习”向导仅在活动配置了学习文件路径字符串时有效。它不适用于设置为变量输入的学习文件路径或学习数据字符串输入。
-
向您的工作流中添加“智能关键字分类器”或“智能关键字分类器训练器”活动。
-
通过添加
.json文件的路径来配置“智能关键字分类器”活动。配置分类器时,请考虑以下信息:- 如果系统未提供路径并且您单击了“管理学习”选项,则系统会显示一个弹出窗口,要求提供学习文件路径输入。提供路径后,系统将打开向导。
- 可以添加变量而不是
.json文件,但是,由于向导无法将学习模式应用于学习数据变量,因此它会要求您提供可编辑的特定文件路径。
-
选择“管理学习” 。
系统将打开“智能关键词分类器”向导窗口。
图 1. “智能关键词分类器”向导的“管理学习”部分概览
-
如果系统未提供路径并且您单击了“管理学习”选项,则系统会显示一个弹出窗口,要求提供学习文件路径 。提供路径后,系统将打开向导。
图 2. 如果未提供路径而选择了“管理学习”选项,则会显示“警告”弹出窗口
备注:即使没有可用的
.json文件,您也可以直接将新的.json文件的名称添加到活动中,系统会在指定的文件夹中自动创建.json文件。
在“管理学习”向导中,您可以通过旁边显示的以下标签查看某种文档类型是否已接受训练: “已针对 X 个文件进行训练”或“开始训练” 。以下屏幕截图显示了已接受训练的文档类型、尚未接受训练的文档类型以及已接受训练并被选择的文档类型,以便查看或删除文档类型。
图 3. 智能关键词分类器的“管理学习”部分中的文档类型及其训练状态
训练数据
对于尚未接受训练的文档类型,可以使用“开始训练”选项执行设计时训练。对于已经过训练的文档类型,您可以使用 删除该文档类型以重新开始
“删除”选项,或使用编辑执行额外训练(累积到现有训练)
选项。
要使用的训练文件必须每个文件包含一个文档类型实例。不要对包含两种或两种以上文档类型的文件运行设计时训练,这是因为您的训练数据会有错误。
启动新训练后,系统将显示一个新屏幕,询问应使用的训练文件和 OCR 引擎。默认的 OCR 引擎是UiPath™ 文档 OCR 。每个 OCR 引擎都有自己的自定义选项集。
图 4. 选择“开始训练”选项后显示的向导
以下 OCR 引擎不支持轮换文档,也不应用于处理此类文档:
- Microsoft OCR
- Tesseract OCR
“将 OCR 应用于 PDF”选项确定是否应将 OCR 流程应用于 PDF 文档。下拉列表中提供三个选项:
- True : 如果设置为True ,则 OCR 将应用于文档的所有 PDF 页面。
- False : 如果设置为False ,则仅提取以数字化方式输入的文本。
- “自动” :默认值为“自动” ,根据输入文档确定文档是否需要应用 OCR 算法。
如果 UiPath.IntelligentOCR.Activities 程序包已更新到 v5.1.0,则强制应用 OCR 参数已替换为将 OCR 应用于 PDF 参数。以下是新旧参数之间的兼容性:
- “强制应用 OCR = True”替换为“将 OCR 应用于 PDF = 是”
- “强制应用 OCR = False”替换为“将 OCR 应用于 PDF = 自动”
- “强制应用 OCR = 空白”替换为“将 OCR 应用于 PDF = 自动”
- “强制应用 OCR = 您定义的变量”替换为“将 OCR 应用于 PDF = 自动”
导出训练数据
只有来自已接受训练文档类型的训练数据才符合导出条件。无法选择未经训练的文档类型。
图 5. 智能关键词分类器中的文档类型尚未经过训练,因此“导出”选项不可用
您可以按照以下步骤导出训练数据:
-
选择已经过训练的文档类型。
-
选择“导出” 。
如果您有未保存的更改,则会显示以下消息:“有未保存的更改时无法导出。是否要在导出前自动保存?”。选择“是”以继续导出过程。
图 6. 在导出训练数据之前,系统会显示“保存更改”消息,显示是否有任何未保存的更改
-
使用所需名称保存训练数据存档。
系统将显示一条消息,说明已导出的文档类型训练数据集的数量。例如:“已导出 4 个词向量”。
图 7. 显示已导出的文档类型训练数据集数量的消息示例
-
选择“确定”以返回到向导的主屏幕。
导入训练数据
您可以按照以下步骤导入训练数据:
-
选择“导入”。
-
选择训练数据存档,然后选择“打开” 。
-
选择所需的文档类型。
图 8.“导入词向量”部分中选定的文档类型
-
选择“导入”。
将导入训练数据。
图 9.先前选择的要导入的文档类型将显示在“管理学习”部分中
下表显示了根据导入类型,导入训练数据时会显示的消息:
表格 1. 针对各种导入类型显示的消息
| 显示的消息 | |
|---|---|
| 新建文档类型和词向量 | 系统会将此文档类型添加至分类。 |
| 新的词向量(之前未定义) | 不显示任何消息。 |
| 相同的文档类型和词向量 | 此文档类型的词向量将被覆盖。 |
Document Understanding 集成
智能关键词分类器活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问Document Understanding 指南。