- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
Document Understanding 用户指南
一键提取
使用“一键提取”功能直接从Document Understanding TM界面轻松训练文档提取程序。 借助 Document Understanding 中的新用户体验,此功能让您无需在 AI Center 中手动创建数据集、管道和 ML 技能。
在使用此功能之前,请确保您的 Document Understanding 项目已 链接到 AI Center。
您可以单击“ 新建提取 程序”按钮,使用“一键提取”功能基于现有的半结构化 AI 文档类型创建新的提取程序。
“ 新建提取 程序” 按钮将打开一个下拉列表,其中包含两个选项:“ 自动训练 ” 和 “手动训练”。
使用“自动训练”选项直接在 Document Understanding 中训练提取程序。 选择此选项后,您必须添加 “ 提取程序名称”,选择首选的 “文档类型”,选择要使用的 模型 及其 版本,启用或禁用 “ 使用 GPU ”选项,然后选择模型的 版本 。 完成后,单击“ 训练 ” 按钮。
请记住,在开始训练提取程序之前,您需要在计划使用的会话中至少标记十个文档。
此功能会自动在 AI Center 中创建一个新的数据集,其名称为您先前在“训练提取数据集”弹出窗口的“提取程序名称”字段中指定的名称。
详细信息
您可以通过单击“提取程序”页面中的 提取 程序名称,或单击操作菜单,然后选择“ 详细信息 ”选项,查看有关已创建的自动化训练操作的更多详细信息。
以下是“详细信息”选项提供的所有信息的列表:
- 训练集 - 指定已处理的文档数和页数。
- “提取的页数 ” - 指定提取的页数。
- F1 分数 - 提供数据集的准确性分数百分比。
- “状态” - 提供提取操作的状态。
- 文档类型 - 提供用于操作的文档类型列表。
- 包名称 - 提供所用 ML 包的名称。
- 包版本 - 提供所用 ML 包模型的版本。
- ML 技能详细信息 - 提供为数据集创建的 ML 技能的 URL。您可以复制此 URL 并在工作流中使用。
- 数据集链接 - 提供已创建(公共)数据集的公共端点 URL。
- 管道详细信息 - 提供为数据集创建的管道的 URL。
- 查看/隐藏日志 - 提供包含已创建数据集的所有日志的列表。您可以复制此列表并在需要时使用。
使用“手动训练”选项将数据集导出到 AI Center,然后在 AI Center 中进行训练。 选择此选项后,您必须添加 数据集名称 并选择首选 文档类型。 完成后,单击“ 导出 ”按钮。
详细信息
您可以通过单击“提取程序”页面中的 提取 程序名称,或单击操作菜单,然后选择“ 详细信息 ”选项,查看有关已创建的手动训练操作的更多详细信息。
以下是“详细信息”选项提供的所有信息的列表:
- 训练集 - 指定已处理的文档数和页数。
- “提取的页数 ” - 指定提取的页数。
- F1 分数 - 提供数据集的准确性分数百分比。
- “状态” - 提供提取操作的状态。
- 文档类型 - 提供用于操作的文档类型列表。
- 包名称 - 提供所用 ML 包的名称。
- 包版本 - 提供所用 ML 包模型的版本。
- ML 技能详细信息 - 提供为数据集创建的 ML 技能的 URL。您可以复制此 URL 并在工作流中使用。
- 数据集链接 - 提供已创建(公共)数据集的公共端点 URL。
- 管道详细信息 - 提供为数据集创建的管道的 URL。
- 查看/隐藏日志 - 提供包含已创建数据集的所有日志的列表。您可以复制此列表并在需要时使用。
您可以使用项目页面中的“ 提取 程序”选项卡检查所有提取操作的状态。
选择“提取程序”选项卡后,您可以看到五个不同的列,每个列都显示有关已创建的分类操作的信息。 您可以按字母顺序升序或降序对它们进行单独排序,也可以将它们保留为默认状态,按创建日期整理,让最新的在顶部:
- 名称 - 显示分类操作的名称。
- 类型 - 显示分类操作的类型(导出或训练)。
- 文档类型 - 显示使用的文档类型。
- 状态 - 显示操作的状态。每个操作都有多个可用状态。有关更多详细信息,请查看下表。
- 创建日期 - 显示创建日期。
- 刷新 - 刷新所有操作的状态,显示最新的操作。
状态 |
描述 |
分类选项 |
---|---|---|
可用 |
操作已成功执行。 |
自动化训练 |
正在进行 |
该操作仍在执行中。 |
自动化训练 |
导出已完成 |
操作已成功执行。 |
手动训练 |
正在导出 |
该操作仍在执行中。 |
手动训练 |
未启动 |
尚未开始执行操作。 |
自动化训练 手动训练 |
不同步 |
Document Understanding 中的状态与 AI Center 中的状态不同步。 导航到 AI Center 并检查与您创建的提取程序对应的 ML 技能的状态。 如果 ML 技能已取消部署,请再次部署。 |
自动化训练 手动训练 |
已暂停 |
操作已暂停。 |
自动化训练 手动训练 |