Document Understanding 传统用户指南

关于管道

提示：

现在，利用“一键提取”和“一键分类”功能可以更方便地训练提取程序和分类器。

Document Understanding ML 包可以运行所有三种类型的管道：

完成后，管道运行将具有关联的输出和日志。要查看此信息，请在左侧边栏的“管道”选项卡中单击一个管道以打开“管道视图”，该视图包含以下内容：

所有管道都在三个不同的文件中返回分数：

evaluation_scores_<package name>.txt - 此文件包含所有字段的准确性分数。
evaluation_<package name>.xlsx - 此文件包含每个字段和每个批次的详细准确度细分，以及每个字段的并排比较，并以颜色突出显示缺失（红色）或部分匹配（黄色）的字段。
evaluation_F1_scores.txt - 此文件包含所有字段的 F1 分数。

通过将匹配项数除以预测总数即可获得准确度。匹配项的权重为 1，而部分匹配项的权重对应于预测值和真实值之间的 Levenshtein 距离。

使用 Levenshtein 距离的部分匹配项是具有“内容类型: 字符串”的字段的默认评分方法。所有其他内容类型（日期、数字、身份证号码、电话号码）仅使用精确匹配评分。

对于字符串字段，您可以在 Document Understanding 的文档类型视图中字段设置对话框的高级选项卡中更改此设置。

例如，如果评估数据集包含 100 个文档，并且某个字段（例如采购订单编号）出现在一半的文档中，则如果模型正确预测了其中 40 个文档和 10 个部分正确的文档，并且 Levenshtein 距离为 0.8，则准确度将为 (40 + 10 x 0.8 + 50)/100 = 98%。

请注意，缺少字段且模型未预测任何内容的 50 个文档也被视为成功预测。

在训练管道上，分数是根据验证数据集计算的。验证数据集是从训练管道中提交的总训练数据集的 20％中随机选择的子集。

训练管道或完整管道也可用于：

前一个OCR 配置

下一个术语和定义