- 入门指南
- 框架组件
- ML 包
- 管道
- Data Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 深度学习
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding 用户指南
智能关键词分类器
智能关键字分类器是一种分类器,它使用从某些文档类型的文件中学习的字词向量执行文档分类。
该算法围绕对相同文档类型重复内容的概念构建而成,其前提是文档类型包含一系列通常会在这些文档类型中出现的词,从而可以计算向量相似度。
将文件归入某一文档类型时,“智能关键字分类器”:
- 会查找与文件更相似的最接近的字词向量,
- 会报告得分最高的文档类型,以及基本的匹配主字词。
“智能关键字分类器”还具有文件拆分功能,这意味着它可以针对给定文件、单独的页面范围报告多个类。
您需要使用 Automation Cloud Document Understanding API 密钥,或在 AI Center 内部部署版内托管自己的“智能关键字分类器”实例,才能使用此分类器。
您只需访问活动的管理学习向导,即可在设计时配置“基于关键字的分类器”。通过使用具有更新后学习文件路径的同一向导,可以使用同一向导来审核在文档分类训练阶段收集的数据。
此向导允许您配置和管理此活动用于识别文档类型和对文档进行分类的训练数据。创建它是为了适应编辑文件路径的需要。如果改用带有变量的“学习数据”选项,则系统会询问您是否要编辑特定文件路径或中止此操作。
- 向您的工作流中添加“智能关键字分类器”/“智能关键字分类器训练器”活动。
- 通过添加
.json
文件的路径来配置“智能关键字分类器”活动。- 如果未提供路径并且单击了“管理学习”选项,则会显示一个弹出窗口,要求输入学习文件路径。提供路径后,系统将打开向导。
- 可以添加变量而不是
.json
文件,但是,由于向导无法将学习模式应用于学习数据变量,因此它会要求您提供可编辑的特定文件路径。
- 单击“管理学习”选项。
- 系统将打开“向导”窗口。
- 系统将打开“向导”窗口。
- 如果未提供路径并且单击了“管理学习”选项,则会显示一个弹出窗口,要求提供学习文件路径。提供路径后,系统将打开向导。
注意:即使没有可用的.json
文件,您也可以直接将新的.json
文件的名称添加到活动中,系统会在指定的文件夹中自动创建.json
文件。
下面的屏幕截图显示了一种已接受训练的文档类型,一种尚未接受训练的文档类型,以及一种已接受训练且可访问以进行查看或删除的文档类型。
对于尚未接受训练的文档类型,可以使用“开始训练”选项执行设计时训练。对于已经过训练的文档类型,您可以使用此 选项将其删除以重新开始,或使用“编辑” 选项执行额外训练(累积到现有训练)。
启动新训练后,系统将显示一个新屏幕,询问应使用的训练文件和 OCR 引擎。
每个 OCR 引擎都有自己的自定义选项集。您可以在此处找到有关每个 OCR 引擎可用的所有选项的更多详细信息。
以下 OCR 引擎不支持轮换文档,也不应用于处理此类文档:
- Microsoft OCR
- Tesseract OCR
只有来自已接受训练文档类型的训练数据才符合导出条件。无法选择未经训练的文档类型。
您可以按照以下步骤导出训练数据:
- 选择已经过训练的文档类型。
- 单击“导出”按钮。
- 如果您有未保存的更改,则会显示以下消息。
- 单击“是”。
- 使用所需名称保存训练数据存档。
- 系统将显示一条消息,说明已导出的文档类型训练数据集的数量。例如:
- 单击“确定”以返回到向导的主屏幕。
将“智能关键字分类器训练器”活动放在“训练分类器作用域”中,并进行相应配置。
在活动级别,我们无法在并行训练之间强制保持训练文件一致性。Document Understanding 流程提供了可用于解决此问题的两种方法。两者都包含流量控制:
- 锁文件(在流程中默认实现):使用
.lock
扩展名重命名文件,修改并保存文件,然后再次重命名文件以删除.lock
扩展名 - 手动设置特殊队列:在 Orchestrator 中创建一个空队列,并集成项目中的两个活动
有关如何训练分类器的更多信息,请参阅文档分类训练。