- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding 流程:Studio 模板
- Document Understanding 活动
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
智能关键词分类器
UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier
此活动使任何用户都可以将文档包分类并拆分为单个文档类型。
它只能与“ 对 文档范围进行分类” 活动一起使用。
常见
- “显示名称”- 活动的显示名称。
输入
- ApiKey - 指定帐户的 API 密钥。 如果在本地项目设置或 Document Understanding 框架中定义了“API 密钥”字段,则会自动预填充该字段。
- “端点”- UiPath 服务器的 URL。默认情况下,端点为
https://du.uipath.com/svc/intelligentkeywords
。有关更多信息,请参阅 Document Understanding 公共端点。 - “学习 数据” - 包含序列化分类器数据的字符串。 此字段仅支持字符串和字符串变量。
- “学习文件路径”- 包含分类器数据的文件的完整路径。此字段仅支持字符串和
String
变量。备注:一次只能设置上述参数之一。 您可以使用 LearningData 字符串或 LearningFilePath 字符串。
LearningFilePath 指定从中检索分类器数据的位置。
LearningData 包含该分类器的实际信息。
- 发送文档 - 发送文档以获得更好的支持、故障排除和性能改进。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
注意: 最佳做法是在该位置创建一个 空 的
.json
文件,然后在“ 学习 文件路径” 字段中使用其名称。
拆分
- 执行文档拆分 - 如果取消选中,模型将不执行文档拆分,仅执行分类。
- 使用页码 - 如果选中,则该模式将使用页码功能来决定拆分文档的位置。如果页码可能会改善拆分结果,请使用它。
访问“ 管理学习 ”向导以配置“ 智能关键字分类 器”活动。 通过打开具有更新的学习文件路径的同一向导,可以使用同一向导查看在文档分类训练阶段收集的数据。
此向导允许您配置和管理“智能关键词分类器”用于识别文档类型和对文档进行分类的训练数据。创建它是为了适应编辑文件路径的需要。如果改用带有变量的“学习数据”选项,则系统会询问您是否要编辑特定文件路径或中止此操作。
- 向您的工作流中添加“智能关键字分类器”/“智能关键字分类器训练器”活动。
- 通过添加
.json
文件的路径来配置“智能关键字分类器”活动。- 如果未提供路径并且单击了“管理学习”选项,则会显示一个弹出窗口,要求输入学习文件路径。提供路径后,系统将打开向导。
- 可以添加变量而不是
.json
文件,但是,由于向导无法将学习模式应用于学习数据变量,因此它会要求您提供可编辑的特定文件路径。
-
单击“管理学习”选项。
- 系统将打开“向导”窗口。
- 系统将打开“向导”窗口。
- 如果未提供路径并且单击了“管理学习”选项,则会显示一个弹出窗口,要求提供学习文件路径。提供路径后,系统将打开向导。
.json
文件,您也可以直接将新的 .json
文件的名称添加到活动中,系统会在指定的文件夹中自动创建 .json
文件。
下面的屏幕截图显示了一种已接受训练的文档类型,一种尚未接受训练的文档类型,以及一种已接受训练且可访问以进行查看或删除的文档类型。
对于尚未接受训练的文档类型,可以使用“开始训练”选项执行设计时训练。对于已经过训练的文档类型,您可以使用此 选项将其删除以重新开始,或使用“编辑” 选项执行额外训练(累积到现有训练)。
启动新训练后,系统将显示一个新屏幕,询问应使用的训练文件和 OCR 引擎。默认的 OCR 引擎是 UiPath 文档 OCR。
每个 OCR 引擎都有自己的自定义选项集。
以下 OCR 引擎不支持轮换文档,也不应用于处理此类文档:
- Microsoft OCR
- Tesseract OCR
“ 对 PDF 应用 OCR” 选项用于确定是否应将 OCR 流程应用于 PDF 文档。 下拉列表中提供三个选项: True、 False和 Auto。
如果设置为“True”,则 OCR 将应用于文档的所有 PDF 页面。如果设置为“False”,则仅提取数字输入的文本。默认值为“自动”,根据输入文档确定文档是否需要应用 OCR 算法。
如果 UiPath.IntelligentOCR.Activities 包已更新到 v5.1.0, 则 ForceApplyOCR 参数已替换为 ApplyOcrOnPDF。 以下是新旧参数之间的兼容性:
• ForceApplyOCR = True 正在替换为 ApplyOcrOnPDF = Yes
• “强制应用 OCR = False”正在替换为“将 OCR 应用于 PDF = Auto”
• “强制应用 OCR = Empty”正在替换为“将 OCR 应用于 PDF = Auto”
强制应用 OCR = <user-defined variable> 正在替换为将 OCR 应用于 PDF = 自动
只有来自已接受训练文档类型的训练数据才符合导出条件。无法选择未经训练的文档类型。
导出训练数据
您可以按照以下步骤导出训练数据:
- 选择已经过训练的文档类型。
- 单击“导出”按钮。
- 如果您有未保存的更改,则会显示以下消息。
- 单击“是”。
- 使用所需名称保存训练数据存档。
- 系统将显示一条消息,说明已导出的文档类型训练数据集的数量。例如:
- 单击“确定”以返回到向导的主屏幕。
导入训练数据
您可以按照以下步骤导入训练数据:
- 单击“导入”按钮。
- 选择训练数据存档,然后单击“打开”。
- 选择所需的文档类型。
- 单击“导入”按钮。
- 将导入训练数据。
下表说明了导入训练数据时显示的每条消息:
导入类型 |
显示的消息 |
---|---|
新建文档类型和词向量 |
系统会将此文档类型添加至分类 |
新的词向量(之前未定义) |
不适用 |
相同的文档类型和词向量 |
此文档类型的词向量将被覆盖 |
Document Understanding 集成
智能关键词分类器活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南。