Document Understanding
最新
False
- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 4506T - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS 1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- Invoices Australia - ML package
- Invoices China - ML package
- Invoices India - ML package
- Invoices Japan - ML package
- 发货发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 深度学习
- 许可
Document Understanding 用户指南
上次更新日期 2024年4月30日
智能关键词分类器
智能关键字分类器是一种分类器,它使用从某些文档类型的文件中学习的字词向量执行文档分类。
该算法围绕对相同文档类型重复内容的概念构建而成,其前提是文档类型包含一系列通常会在这些文档类型中出现的词,从而可以计算向量相似度。
将文件归入某一文档类型时,“智能关键字分类器”:
- 会查找与文件更相似的最接近的字词向量,
- 会报告得分最高的文档类型,以及基本的匹配主字词。
“智能关键字分类器”还具有文件拆分功能,这意味着它可以针对给定文件、单独的页面范围报告多个类。
注意:与基于关键字的分类器不同,训练智能关键字分类器时,您不需要手动选择文档中的引用,并且在训练时提供的任何此类引用都将被忽略。
在下列情况下,您应考虑使用此分类器:
- 您的文件在单个文件中包含一个或多个文档类型
- 就内容而言,您的文档类型相对容易区分。
注意:从版本 6.9.0 开始,“智能关键词分类器”活动的拆分性能已得到改进。为了优化拆分性能,请使用 6.9.0 或更高版本。
您需要使用 Automation Cloud Document Understanding API 密钥,或在 AI Center 内部部署版内托管自己的“智能关键字分类器”实例,才能使用此分类器。
将“智能关键字分类器训练器”活动放在“训练分类器作用域”中,并进行相应配置。
We cannot enforce training file consistency across parallel trainings at the activity level. Two possible solutions for this issue are provided by Document Understanding Process. Both consist of traffic control:
- 锁文件(在流程中默认实现):使用
.lock
扩展名重命名文件,修改并保存文件,然后再次重命名文件以删除.lock
扩展名 - 手动设置特殊队列:在 Orchestrator 中创建一个空队列,并集成项目中的两个活动
有关如何训练分类器的更多信息,请查看此页面,其中描述了“管理学习”向导的使用过程。