document-understanding
2023.10
false
- 概述
 - Document Understanding 流程
 - 快速入门教程
 - 框架组件
 - ML 包
- 概述
 - Document Understanding - ML 包
 - DocumentClassifier - ML 包
 - 具有 OCR 功能的 ML 包
 - 1040 - ML 包
 - 1040 附表 C - ML 包
 - 1040 附表 D - ML 包
 - 1040 附表 E - ML 包
 - 4506T - ML 包
 - 990 - ML 包 - 预览
 - ACORD125 - ML 包
 - ACORD126 - ML 包
 - ACORD131 - ML 包
 - ACORD140 - ML 包
 - ACORD25 - ML 包
 - 银行对账单 - ML 包
 - 提单 - ML 包
 - 公司注册证书 - ML 包
 - 原产地证书 - ML 包
 - 检查 - ML 包
 - 儿童产品证书 - ML 包
 - CMS1500 - ML 包
 - 欧盟符合性声明 - ML 包
 - 财务报表 (Financial statements) - ML 包
 - FM1003 - ML 包
 - I9 - ML 包
 - ID Cards - ML 包
 - Invoices - ML 包
 - InvoicesAustralia - ML 包
 - 中国发票 - ML 包
 - 印度发票 - ML 包
 - 日本发票 - ML 包
 - 装运发票 - ML 包
 - 装箱单 - ML 包
 - 护照 - ML 包
 - 工资单 - ML 包
 - 采购订单 - ML 包
 - 收据 - ML 包
 - 汇款通知书 - ML 包
 - UB04 - ML 包
 - 水电费账单 - ML 包
 - 车辆所有权证明 - ML 包
 - W2 - ML 包
 - W9 - ML 包
 
- 其他开箱即用的 ML 包
 - 公共端点
 - 硬件要求
 
 - 管道
 - Document Manager
 - OCR 服务
 - 深度学习
 - 部署在 Automation Suite 中的 Document Understanding
 - 在 AI Center 独立版中部署的 Document Understanding
 - 许可
 - 活动
- UiPath.Abbyy.Activities
 - UiPath.AbbyyEmbedded.Activities
 - UiPath.DocumentProcessing.Contracts
 - UiPath.DocumentUnderstanding.ML.Activities
 - UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
 - UiPath.Intelligent OCR.Activities
 - UiPath.OCR.Activities
 - UiPath.OCR.Contracts
 - UiPath.OmniPage.Activities
 - UiPath.PDF.Activities
 
 
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 用户指南
上次更新日期 2025年10月22日
智能关键字分类器是一种分类器,它使用从某些文档类型的文件中学习的字词向量执行文档分类。
该算法围绕对相同文档类型重复内容的概念构建而成,其前提是文档类型包含一系列通常会在这些文档类型中出现的词,从而可以计算向量相似度。
将文件归入某一文档类型时,“智能关键字分类器”:
- 会查找与文件更相似的最接近的字词向量,
 - 会报告得分最高的文档类型,以及基本的匹配主字词。
 
“智能关键字分类器”还具有文件拆分功能,这意味着它可以针对给定文件、单独的页面范围报告多个类。
注意:与基于关键字的分类器不同,训练智能关键字分类器时,您不需要手动选择文档中的引用,并且在训练时提供的任何此类引用都将被忽略。
               
               
            在下列情况下,您应考虑使用此分类器:
- 您的文件在单个文件中包含一个或多个文档类型
 - 就内容而言,您的文档类型相对容易区分。
 
注意:从版本 6.9.0 开始,“智能关键词分类器”活动的拆分性能已得到改进。为了优化拆分性能,请使用 6.9.0 或更高版本。
               
               
            您需要使用 Automation CloudTM Document UnderstandingTM API 密钥,或在 AI Center 本地部署版内托管自己的“智能关键字分类器”实例,才能使用此分类器。
将“智能关键字分类器训练器”活动放在“训练分类器作用域”中,并进行相应配置。
在活动级别,我们无法在并行训练之间强制保持训练文件一致性。Document Understanding 流程提供了可用于解决此问题的两种方法。两者都包含流量控制:
- 锁文件(在流程中默认实现):使用 
.lock扩展名重命名文件,修改并保存文件,然后再次重命名文件以删除.lock扩展名 - 手动设置特殊队列:在 Orchestrator 中创建一个空队列,并集成项目中的两个活动
 
有关如何训练分类器的更多信息,请查看此页面,其中描述了“管理学习”向导的使用过程。
点击此链接,了解有关智能关键字分类器的更多信息。