- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 护照 - ML 包
- 工资单 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 硬件要求
- 管道
- Document Manager
- OCR 服务
- 支持的语言
- 深度学习
- Insights 仪表板
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- Activities (活动)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding 用户指南
文档分类概述
什么是文档分类
Document Classification is a component in the Document UnderstandingTM Framework that helps in identifying what types of files the robot is processing.
根据文件的内容和使用的分类方法,文件可分为一个或多个文档类型:
- 如果文件包含单个逻辑文档类型(例如,全部是发票或医疗记录),则应相应地配置分类组件并返回单一分类结果;
- 如果文件包含多种逻辑文档类型(例如,第 1 页到第 5 页是发票,接下来的 10 页是医疗记录,第 16 页到末尾是保险协议),则分类组件应返回多个分类结果,每个分类结果对应输入文件中右侧的页面范围。
分类时使用的文档类型是项目分类中定义的文档类型。
何时应使用文档分类
一方面,如果项目需要处理全部属于同一文档类型且始终作为每个文件一个实例显示的文件(例如,一个文件中有一份发票),则无需分类,可以完全跳过。
另一方面,如果项目要处理两个或多个文档类型(例如,工作流必须处理在处理前无法区分的“发票”和“医疗记录”),或者文件有时可能会包含两个或多个不同的文档类型(例如,一个文件包含 3 份发票),则强烈建议分类。
如何使用文档分类组件
Classification is done through the Classify Document Scope activity. To classify the documents, you can use one or more classifiers, as the scope activity has the role of configuring and executing one or more algorithms for document classification and of offering an easy, unitary configuration option for all your needs.
简而言之,“对文档范围进行分类”的执行内容如下:
- 为所有分类器(分类算法)提供运行所需的必要配置。
- 接受一个或多个分类器。
- 允许在分类器级别进行文档类型筛选、分类映射和最低可信度阈值设置。
- 无论分类来源如何,均以统一方式报告分类信息。
The Classify Document Scope allows you to configure it by using the Configure Classifiers wizard. You can customize
- 从哪个分类器接受哪些文档类型,
- 每个分类器可接受的给定结果的最低可信度阈值是多少,
- 项目分类和分类器的内部分类(如有)之间在文档类型级别的分类映射是什么。
Please note that the order of the classifiers in the Classify Document Scope is important:
- 按从左到右的优先顺序执行分类器;
- 如果分类器返回的分类结果报告的是一个可接受的文档类型,并且其可信度阈值等于或大于为该分类器设置的最低可信度阈值,则接受该分类结果;
- 仅使用之前的分类器未进行分类的页面范围执行分类器(因此可能在一次执行中多次调用)。
可用的分类器
根据用例的要求,您可以从多种分类方法(称为分类器)中选择。
Classifiers can be found in the UiPath.IntelligentOCR.Activities or UiPath.DocumentUnderstanding.ML.Activities packages.
可用的分类器包括:
您总是可以使用公共文档处理合同来构建自己的分类器,因而能够实现任何适合自己用例的算法。