document-understanding
latest
false
- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
Document Understanding 用户指南
Last updated 2024年11月14日
关于管道
Document Understanding TM ML 包可以运行所有三种类型的管道:
完成后,管道运行将具有关联的输出和日志。要查看此信息,请在左侧边栏的“管道”选项卡中单击一个管道以打开“管道视图”,该视图包含以下内容:
- 管道详细信息,例如类型、ML 包名称和版本、数据集、GPU 使用情况、参数和执行时间
- “输出”窗格;这始终包括一个
_results.json
文件,其中包含管道详细信息的摘要 - “日志”页面;也可以在左侧边栏的“ML 日志”选项卡中获取日志
所有管道都在三个不同的文件中返回分数:
evaluation_scores_<package name>.txt
- 此文件包含所有字段的准确性分数。evaluation_<package name>.xlsx
- 此文件包含每个字段和每个批次的详细准确度细分,以及每个字段的并排比较,并以颜色突出显示缺失(红色)或部分匹配(黄色)的字段。evaluation_F1_scores.txt
- 此文件包含所有字段的 F1 分数。
备注:
使用 Levenshtein 距离的部分匹配项是具有“内容类型: 字符串”的字段的默认评分方法。 所有其他内容类型(日期、数字、身份证号码、电话号码)仅使用精确匹配评分。
对于字符串字段,您可以在 Document Understanding 的文档类型视图中字段设置对话框的高级选项卡中更改此设置。
例如,如果评估数据集包含 100 个文档,并且某个字段(例如采购订单编号)出现在一半的文档中,则如果模型正确预测了其中 40 个文档和 10 个部分正确的文档,并且 Levenshtein 距离为 0.8,则准确度将为 (40 + 10 x 0.8 + 50)/100 = 98%。
备注:
请注意,缺少字段且模型未预测任何内容的 50 个文档也被视为成功预测。
在训练管道上,分数是根据验证数据集计算的。 验证数据集是从训练管道中提交的总训练数据集的 20% 中随机选择的子集。
训练管道或完整管道也可用于:
注意:
训练管道 和 完整管道 支持最多包含 18.000 个已标记页面的训练集。