- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- 训练管道和评估管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
训练管道和评估管道
Document Understanding ML 包可以运行所有三种类型的管道(完整管道、训练管道和评估管道)。
对于大多数用例,不需要指定任何参数,模型将使用高级技术来查找高性能模型。
_results.json
文件,其中包含管道详细信息的摘要,例如包版本、数据集、GPU 使用情况和执行时间。
有两种训练管道:
- 在“Document Understanding”类型的 ML 包中
- 在不同类型的 ML 包上,例如发票、收据、订单、水电费账单、印度发票或澳大利亚发票。
使用 Document Understanding 包进行训练时,只需在作为输入提供的数据集上从头开始训练模型。
对于包含低多样性文档(表单)的用例,使用少至 30 到 50 个样本,您可能会获得良好的结果。
对于包含多样化文档的用例,其中您只需要常规(“标头”)字段,每个字段至少需要 20 到 50 个样本,因此,如果需要提取 10 个常规字段,则至少需要 200 到 500 个样本。
当您需要提取列字段(例如行项目)时,每个列字段需要 50 到 200 个样本,因此,对于 5 个列字段,使用干净简单的版式,您可能需要 300 到 400 个样本;但而对于高度复杂且多样化的版式,可能需要多达 1000 个样本。
如果还需要涵盖多种语言,则每种语言至少需要 200 到 300 个样本。这些数字不需要累加,语言除外。因此,对于 10 个标头字段和 5 个列字段,500 个样本就足够了,但在某些情况下可能需要超过 1000 个样本。
使用步骤 2 中描述的包之一进行训练需要一个额外的输入:基本模型。我们也将此称为再训练,因为您不是从头开始,而是从基本模型开始。此方法使用一种称为“迁移学习”的技术,其中模型利用另一个预先存在的模型中编码的信息。当您在相同的字段上训练以仅优化准确性时,只需增加 100-500 个文档即可获得良好的结果。如果要向模型添加新字段,则每个新字段需要 30-50 个文档才能获得良好结果。在选择要使用的基本模型版本时,我们强烈建议您始终使用 1.0,即 UiPath 提供的开箱即用预训练版本。
系统不会重新训练分类字段,因此在重新训练模型时,您需要确保添加标签的数据集拥有至少 10 到 20 个来自每个类别的样本,您希望该模型能够识别,无论您用作基本模型的预训练模型的性能如何。
AI Fabric 的 2020 年发行版包括使用人工利用验证站点验证的数据来微调 ML 模型的功能。
当 RPA 工作流使用现有 ML 模型处理文档时,某些文档可能需要使用验证站点活动(在有人值守机器人上或使用 Orchestrator Action Center 的浏览器中提供)进行人工验证。
在“验证站点”中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出,并可用于微调 AI Fabric 中的 ML 模型。
我们不建议使用来自验证站点的数据从头开始训练 ML 模型(即使用 DocumentUnderstanding ML 包),而仅使用来自验证站点的数据来微调现有 ML 模型(包括开箱即用 ML 模型)。
有关微调 ML 模型所涉及的详细步骤,请参阅 Data Manager 文档的“验证站点数据集导入”部分。
使用 GPU(AI 机器人 Pro)进行训练至少比使用 CPU(AI 机器人)进行训练快 10 倍。请注意,在 GPU 上训练 Document Understanding 模型时,GPU 至少需要具有 11GB 的视频 RAM 才能成功运行。
GPU 模型需要支持版本 418.0 及更高版本的 NVIDIA 驱动程序和版本 9.0 及更高版本的 CUDA 驱动程序。
仅支持对不超过 500 个图像的数据集进行 CPU 训练。对于较大的数据集,您需要使用 GPU 进行训练。
包含来自 Data Manager 的导出数据集的文件夹。这包括:
- images:此文件夹包含所有已标记页面的图像;
- latest:此文件夹包含 json 文件,以及每个页面中的已标记数据;
- schema.json:此文件包含要提取的字段及其类型;
- split.csv:此文件夹包含每个文档的拆分,这些文档将在训练管道中用于训练或验证