document-understanding
latest
false
- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
Document Understanding 用户指南
流量限制
提取和分类 ML 包需要大量计算资源,这意味着随着文档大小和/或每分钟文档数量的吞吐量的增长,会受到一些限制。
大于 100 页的文档预计会遇到计算或延迟限制,从而导致 ML 技能不稳定或返回 HTTP 错误。很难定义确切的上限,因为文档的文本密度和图像分辨率具有很大的动态范围,而文本密度(每页的字数)会影响所需的计算和 RAM 资源以及延迟。此外,ML 技能的容量取决于用于部署该技能的硬件的大小,这由 AI Center 控制。例如,可以将 ML 技能部署在 GPU 或 CPU 上,这对 ML 技能的容量和速度有很大影响。
关于吞吐量,ML 技能一次只能处理一个文档,这意味着您需要等待一个文档完成才能发送下一个文档。文档越大,单位时间内可处理的文档就越少。
为了缓解这些问题,如果您需要处理非常大的文档,请记住,在许多情况下,相关数据可能位于较小的页面子集上,并且可以使用智能关键字分类器拆分出这个子集。这可能是一个很好的策略,因为它可以消除 ML 技能错误/失败/超时,提高吞吐量和响应能力,通过减少误报来提高提取准确性,并通过消除不必要的 AI Unit 消耗来降低成本。