document-understanding
latest
false
- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
Document Understanding 用户指南
Last updated 2024年11月14日
文档分类概述
文档分类是Document Understanding TM框架中的一个组件,可帮助识别机器人正在处理的文件类型。
根据文件的内容和使用的分类方法,文件可分为一个或多个文档类型:
- 如果文件包含单个逻辑文档类型(例如,全部是发票或医疗记录),则应相应地配置分类组件并返回单一分类结果;
- 如果文件包含多种逻辑文档类型(例如,第 1 页到第 5 页是发票,接下来的 10 页是医疗记录,第 16 页到末尾是保险协议),则分类组件应返回多个分类结果,每个分类结果对应输入文件中右侧的页面范围。
分类时使用的文档类型是项目分类中定义的文档类型。
一方面,如果项目需要处理全部属于同一文档类型且始终作为每个文件一个实例显示的文件(例如,一个文件中有一份发票),则无需分类,可以完全跳过。
另一方面,如果项目要处理两个或多个文档类型(例如,工作流必须处理在处理前无法区分的“发票”和“医疗记录”),或者文件有时可能会包含两个或多个不同的文档类型(例如,一个文件包含 3 份发票),则强烈建议分类。
您可以通过“对文档范围进行分类”活动来完成分类。要对文档进行分类,您可以使用一个或多个分类器,这是因为作用域活动的作用是配置和执行一个或多个用于文档分类的算法,并提供简单统一的配置选项,满足您的所有需求。
简而言之,“对文档范围进行分类”的执行内容如下:
- 为所有分类器(分类算法)提供运行所需的必要配置。
- 接受一个或多个分类器。
- 允许在分类器级别进行文档类型筛选、分类映射和最低可信度阈值设置。
- 无论分类来源如何,均以统一方式报告分类信息。
“对文档范围进行分类”允许您使用“配置分类器”向导对其进行配置。您可以自定义
- 从哪个分类器接受哪些文档类型,
- 每个分类器可接受的给定结果的最低可信度阈值是多少,
- 项目分类和分类器的内部分类(如有)之间在文档类型级别的分类映射是什么。
请注意,在“对文档范围进行分类”中,分类器的顺序很重要:
- 按从左到右的优先顺序执行分类器;
- 如果分类器返回的分类结果报告的是一个可接受的文档类型,并且其可信度阈值等于或大于为该分类器设置的最低可信度阈值,则接受该分类结果;
- 仅使用之前的分类器未进行分类的页面范围执行分类器(因此可能在一次执行中多次调用)。