- 概述
- 入门指南
- Activities (活动)
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- 模型详细信息
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 数据与安全性
- 许可和计费逻辑

Document Understanding classic user guide
完整管道
完整管道同时运行训练管道和评估管道。
Minimal dataset size For successfully running a Training pipeline, we strongly recommend minimum 10 documents and at least 5 samples from each labeled field in your dataset. Otherwise, the pipeline throws the following error: Dataset Creation Failed. Training on GPU vs CPU
- 对于较大的数据集,您需要使用 GPU 进行训练。此外,使用 GPU 进行训练至少比使用 CPU 快 10 倍。
- 对于 v21.10.x ML 包,在 CPU 上训练仅支持大小不超过 5000 页的数据集,而对于其他版本的 ML 包,在 CPU 上训练的限制为最多 1000 页。
- 在 2021.10 版本之前,在 CPU 上训练的限制为 500 页,对于 2021.10 版本,其增加到 5000 页,对于 2022.4 版本,其将减少到最多 1000 页。
同时训练和评估模型
按如下方式配置训练管道:
-
在“管道类型”字段中,选择“完整管道运行”。
-
在“选择包”字段中,选择要训练和评估的包。
-
在“选择包主要版本”字段中,选择包的主要版本。
-
在“选择包次要版本”字段中,选择包的次要版本。强烈建议始终使用次要版本 0(零)。
-
In the Choose input dataset field, select a representative training dataset.
-
In the Choose evaluation dataset field, select a representative evaluation dataset.
-
在“输入参数”部分中,输入管道定义和使用的任何环境变量(如果有)。对于大多数用例,不需要指定任何参数,模型将使用高级技术来查找高性能配置。但是,您可以使用以下一些环境变量:
-
auto_retrainingwhich allows you to complete the Auto-retraining Loop; if the variable is set to True, then the input dataset needs to be the export folder associated with the labeling session where the data is tagged; if the variable remains set to False, then the input dataset needs to correspond to the dataset format. -
model.epochs,用于自定义训练管道的时期数(默认值为 100)。 -
选择是在 GPU 还是 CPU 上训练管道。默认情况下,“启用 GPU”滑块处于禁用状态,在这种情况下,管道将在 CPU 上进行训练。此外,使用 GPU 进行训练至少比使用 CPU 快 10 倍。此外,仅支持对不超过 1000 张图像的数据集进行 CPU 训练。对于较大的数据集,您需要使用 GPU 进行训练。
-
请选择管道应何时运行:“立即运行”、“基于时间”或“循环”。如果您使用的是
auto_retraining变量,请选择“循环”。
-
配置所有字段后,单击“创建”。已创建管道。
工件
对于完整管道,“输出”窗格还包括“artifacts”/“eval_metrics”文件夹,其中包含两个文件:

evaluation_default.xlsx是一个 Excel 电子表格,其中包含模型预测的每个字段的真实值与预测值的比较,以及文档准确性指标(按准确性升序排序)。因此,最不准确的文档会显示在顶部,以便于诊断和故障排除。evaluation_metrics_default.txtcontains the F1 scores of the fields which were predicted. For line items, a global score is obtained for all columns taken together.