- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 护照 - ML 包
- 工资单 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 硬件要求
- 管道
- Document Manager
- OCR 服务
- 支持的语言
- 深度学习
- Insights 仪表板
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- Activities (活动)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding 用户指南
智能关键词分类器
什么是智能关键字分类器
The Intelligent Keyword Classifier is a classifier that uses the word vector it learns from files of certain document types to perform document classification.
该算法围绕对相同文档类型重复内容的概念构建而成,其前提是文档类型包含一系列通常会在这些文档类型中出现的词,从而可以计算向量相似度。
将文件归入某一文档类型时,“智能关键字分类器”:
- 会查找与文件更相似的最接近的字词向量,
- 会报告得分最高的文档类型,以及基本的匹配主字词。
“智能关键字分类器”还具有文件拆分功能,这意味着它可以针对给定文件、单独的页面范围报告多个类。
Unlike the Keyword Based Classifier, you do not need to manually select references in the document when training the Intelligent Keyword Classifier and any such references provided at training time will be ignored.
何时使用
在下列情况下,您应考虑使用此分类器:
- 您的文件在单个文件中包含一个或多个文档类型
- 就内容而言,您的文档类型相对容易区分。
Starting with version 6.9.0, the splitting performance for the Intelligent Keyword Classifier activity has been improved. For optimized splitting performance, use version 6.9.0 or higher.
特殊要求
You need to use your Automation CloudTM Document UnderstandingTM API Key, or host your own instance of the Intelligent Keyword Classifier in AI Center on-prem, to use this classifier.
如何训练
Place the Intelligent Keyword Classifier Trainer activity in a Train Classifiers Scope, and configure it accordingly.
在活动级别,我们无法在并行训练之间强制保持训练文件一致性。Document Understanding 流程提供了可用于解决此问题的两种方法。两者都包含流量控制:
- 锁文件(在流程中默认实现):使用
.lock扩展名重命名文件,修改并保存文件,然后再次重命名文件以删除.lock扩展名 - 手动设置特殊队列:在 Orchestrator 中创建一个空队列,并集成项目中的两个活动
For more information on how to train a Classifier, check this page that describes the process of using the Manage Learning wizard.