- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
Document Understanding 活动
智能关键词分类器
UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier
此活动使任何用户都可以对文档包进行分类并将其拆分为单独的文档类型。该活动只能与“分类文档作用域”活动一起使用。
设计器面板
- “学习文件路径”- 包含分类器数据的文件的完整路径。此字段仅支持字符串和
String
变量。备注:一次只能设置上述参数之一。 您可以使用 LearningData 字符串或 LearningFilePath 字符串。
LearningFilePath 指定从中检索分类器数据的位置。
LearningData 包含该分类器的实际信息。
- “端点”- UiPath™服务器的 URL。 默认情况下,端点为
https://du.uipath.com/svc/intelligentkeywords
。 有关端点的更多信息,请访问Document Understanding 公共端点。 - ApiKey - 指定帐户的 API 密钥。 如果在本地项目设置或 Document Understanding 框架中定义了“API 密钥”字段,则会自动预填充该字段。
属性面板
常见
- “显示名称”- 活动的显示名称。
输入
- ApiKey - 指定帐户的 API 密钥。 如果在本地项目设置或 Document Understanding 框架中定义了“API 密钥”字段,则会自动预填充该字段。
- “端点”- UiPath™服务器的 URL。 默认情况下,端点为
https://du.uipath.com/svc/intelligentkeywords
。 有关端点的更多信息,请访问Document Understanding 公共端点。 - “学习数据”- 包含序列化分类器数据的字符串。此字段仅支持字符串和
String
变量。 - “学习文件路径”- 包含分类器数据的文件的完整路径。此字段仅支持字符串和
String
变量。备注:一次只能设置上述参数之一。 您可以使用 LearningData 字符串或 LearningFilePath 字符串。
LearningFilePath 指定从中检索分类器数据的位置。
LearningData 包含该分类器的实际信息。
- 发送文档 - 启用后,允许 UiPath™ 保存引用的文档以提高算法性能。禁用此功能可阻止 UiPath™ 存储文档。无论此设置如何,算法的操作都不会受到影响。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
注意: 最佳做法是在该位置创建一个 空 的
.json
文件,然后在“ 学习 文件路径” 字段中使用其名称。
拆分
- 执行文档拆分 - 如果取消选中,模型将不执行文档拆分,仅执行分类。
- 使用页码 - 如果选中,则该模式将使用页码功能来决定拆分文档的位置。如果页码可能会改善拆分结果,请使用它。
访问“ 管理学习 ”向导以配置“ 智能关键字分类 器”活动。 通过打开具有更新的学习文件路径的同一向导,可以使用同一向导查看在文档分类训练阶段收集的数据。
此向导允许您配置和管理“智能关键词分类器”用于识别文档类型和对文档进行分类的训练数据。创建它是为了适应编辑文件路径的需要。如果改用带有变量的“学习数据”选项,则系统会询问您是否要编辑特定文件路径或中止此操作。
- 向您的工作流中添加“智能关键字分类器”或“智能关键字分类器训练器”活动。
- 通过添加
.json
文件的路径来配置“智能关键字分类器”活动。配置分类器时,请考虑以下信息:- 如果系统未提供路径并且您单击了“管理学习”选项,则系统会显示一个弹出窗口,要求提供学习文件路径输入。提供路径后,系统将打开向导。
- 可以添加变量而不是
.json
文件,但是,由于向导无法将学习模式应用于学习数据变量,因此它会要求您提供可编辑的特定文件路径。
- 选择“管理学习”。
系统将打开“智能关键词分类器”向导窗口。图 1. “智能关键词分类器”向导的“管理学习”部分概览
- 如果系统未提供路径并且您单击了“管理学习”选项,则系统会显示一个弹出窗口,要求提供学习文件路径。提供路径后,系统将打开向导。
图 2. 如果未提供路径而选择了“管理学习”选项,则会显示“警告”弹出窗口
注意:即使没有可用的.json
文件,您也可以直接将新的.json
文件的名称添加到活动中,系统会在指定的文件夹中自动创建.json
文件。
在“管理学习”向导中,您可以通过旁边显示的以下标签查看某种文档类型是否已接受训练:“已针对 X 个文件进行训练”或“开始训练”。以下屏幕截图显示了已接受训练的文档类型、尚未接受训练的文档类型以及已接受训练并被选择的文档类型,以便查看或删除文档类型。
对于尚未接受训练的文档类型,可以使用“开始训练”选项执行设计时训练。对于已经过训练的文档类型,您可以使用移除选项将其删除以重新开始,或使用编辑选项执行额外训练(累积到现有训练)。
启动新训练后,系统将显示一个新屏幕,询问应使用的训练文件和 OCR 引擎。 默认的 OCR 引擎是UiPath™文档 OCR 。 每个 OCR 引擎都有自己的自定义选项集。
以下 OCR 引擎不支持轮换文档,也不应用于处理此类文档:
- Microsoft OCR
- Tesseract OCR
- True:如果设置为“True”,则 OCR 将应用于文档的所有 PDF 页面。
- False:如果设置为“False”,则仅提取以数字化方式输入的文本。
- 自动:默认值为“自动”,根据输入文档确定文档是否需要应用 OCR 算法。
- “强制应用 OCR = True”替换为“将 OCR 应用于 PDF = 是”
- “强制应用 OCR = False”替换为“将 OCR 应用于 PDF = 自动”
- “强制应用 OCR = 空白”替换为“将 OCR 应用于 PDF = 自动”
- “强制应用 OCR = 您定义的变量”替换为“将 OCR 应用于 PDF = 自动”
只有来自已接受训练文档类型的训练数据才符合导出条件。无法选择未经训练的文档类型。
您可以按照以下步骤导出训练数据:
- 选择已经过训练的文档类型。
- 选择 “导出”。
如果您有未保存的更改,则系统会显示以下消息:“有未保存的更改时无法导出。是否要在导出前自动保存?”。选择“是”以继续导出过程。图 6. 在导出训练数据之前,系统会显示“保存更改”消息,显示是否有任何未保存的更改
- 使用所需名称保存训练数据存档。
系统将显示一条消息,说明已导出的文档类型训练数据集的数量。例如:“已导出 4 个词向量”。图 7. 显示已导出的文档类型训练数据集数量的消息示例
- 选择“确定”以返回到向导的主屏幕。
您可以按照以下步骤导入训练数据:
- 选择“导入” 。
- 选择训练数据存档,然后选择“打开”。
- 选择所需的文档类型。
图 8.“导入词向量”部分中选定的文档类型
- 选择“导入” 。
将导入训练数据。图 9. 先前选择的要导入的文档类型将显示在“管理学习”部分中
下表显示了根据导入类型,导入训练数据时会显示的消息:
显示的消息 | |
---|---|
新建文档类型和词向量 |
系统会将此文档类型添加至分类。 |
新的词向量(之前未定义) |
不显示任何消息。 |
相同的文档类型和词向量 |
此文档类型的词向量将被覆盖。 |
智能关键词分类器活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南。