- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
Document Understanding 用户指南
数据集诊断
从头开始训练新模型有时可能是一项非常艰巨的工作。
“数据集诊断”功能通过提供反馈和有关步骤的提示,帮助您构建有效的数据集,以使经过训练的模型获得良好的准确性。
数据集诊断位于 Document Manager 的管理栏中,在训练新模型的整个过程中提供可视化和书面指导。
“管理”栏中显示了三个数据集状态级别:
- 红色 - 需要更多已加标签的训练数据。
- 橙色 - 建议使用更多已加标签的训练数据。
- 绿色 - 已达到所需的已加标签训练数据级别。
如果会话中未创建任何字段,则数据集状态级别为灰色。
有关每种状态的更多信息,请参见“数据集诊断”弹出菜单。单击“数据集诊断”按钮即可打开该菜单。
提供有关用于训练模型的文档、已导入页面总数和已标记页面总数的信息。
颜色状态栏上的分隔由训练模型所需的建议已标记页面数和数据集的实际状态(包括已标记数据和未标记数据)确定。将鼠标指针悬停在状态栏的每种颜色上,可在工具提示中看到有关每种状态的额外信息。
“数据集”选项卡上的可用数字是根据训练过程中常规字段和项目字段的数量计算得出的。
- 红色 - 数据集需要更多标记数据来训练模型。
- 橙色 - 为了提高已训练模型的准确性,建议使用更多已加标签的数据。您可以选择进一步处理实际数据,但准确度并不像预期的那样高。
- 绿色 - 标记的数据足以使数据集得到相应的训练并接收准确的信息。
提供有关每个已加标签字段的信息,更准确地说是已加标签的训练页面总数、具有已加标签字段的评估文档总数及其当前训练集的状态。
- 字段 - 已加标签字段的名称。
- 训练页面 - “训练+验证”集里标记了字段的页数。
- 评估文档 - 评估集中对此字段加标签的文档数量。
- “状态”- 每个字段的状态,由三个选项标记:“红色”、“橙色”和“绿色”。
以下是“状态”栏的所有可用选项:
- 红色 - 有关字段的数据不足,需要更多标签。
- 橙色 - 需要为更多页面添加标签才能使结果相关。
- 绿色 - 有足够的已加标签页面以使结果具有相关性。
“刷新”和“关闭”按钮适用于这两个选项卡,这意味着如果单击“数据集”选项卡上的“刷新”按钮,则“归档”选项卡也会刷新。
- 刷新 - 在对数据集进行更改(无论是更改总页数还是已加标签页数)后,请使用刷新选项。弹出菜单每隔几分钟自动刷新一次,并且会在两个选项卡上同时出现。当需要在自动窗口之外刷新时,请使用此功能。
- “关闭”- 收集完所需的所有信息后,单击“关闭”按钮来关闭菜单。无论从哪个选项卡中单击“关闭”按钮,整个弹出菜单都将关闭。
可以使用数据集计算器修改以下字段:
- 开箱即用文档类型
- 语言数量
- 布局数量
“计算器”选项卡中的以下字段为只读,其值通过将所使用的开箱即用文档类型与当前架构字段相交来确定:
- 开箱即用常规字段
- 开箱即用列字段
- 开箱即用的分类字段
修改上述任何字段都会影响数据集的建议大小。根据新的建议大小,当前打开的弹出窗口中的“数据集”选项卡将更新为绿色/黄色/红色状态。保存更改后,整体数据集诊断指示器会考虑新的“数据集”选项卡运行状况。
假设您在最初创建文档类型时为“开箱即用文档类型”字段选择了“发票”。如果您将初始选择更改为其他内容,例如收据,则数据集将吸收这两种文档类型的信息,并显示所选两种文档类型(发票和收据)的交叉信息。
如果有些字段仅存在于其中一个模型中,则这些字段将显示在“自定义常规字段”或“自定义列字段”中,因为这些更改会同时应用于常规字段和分类字段。