- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
Document Understanding 用户指南
搜索文档
总共提供三种搜索功能,两种在页面顶部的 管理栏中 ,另一种是使用 图标。
管理栏搜索功能包括:
- 使用内置筛选器进行搜索:根据下拉菜单中提供的批次/类别选项筛选文档。
注意:
选择更多选项可进一步限制搜索范围。例如,如果选择“批量导入 1”和“已删除”,则只会返回在“批量导入 1”中导入且已删除的文档。
记下将始终返回空列表的组合:如果选择“批量导入 1”和“批量导入 2”,则永远不会返回文档,因为选择内容具有限制性,没有文档可以同时属于两个批次。
- 使用关键字搜索数据集中的所有文档:此搜索输入会根据 文本输入筛选信息。 您必须在搜索字段中以自由文本形式输入关键字。 搜索将在文档内容或文档名称中查找关键字。 当单词相邻时,多词搜索将返回结果,不包括它们之间的任何标点符号。
- 在当前显示的文档中搜索:仅在当前文档中搜索文本实例。 搜索栏 ,可以在屏幕左下方找到。
每个筛选器都会在括号中显示符合条件的文档数量。
有七个预定义的关键字,即:
- 训练集和验证集 (Training and validation set)
- 训练集
- 评估集
- 验证集
- 已删除
- 已标记
- 未标记
请注意,对于 Forms AI,只有以下内置筛选器可用:“已删除”、“已标记”和“未标记”。
除了这些预定义的关键字之外,您还可以根据导入到 Document Manager 的批次数量,基于指定批次进行筛选:
- 批次 <批次名称 1>
- 批次 <批次名称 2>
- 批次 <批次名称 3>
- 等等。
您必须在“搜索”字段中以自由文本形式输入关键字。 搜索将在文档内容或文档名称中查找关键字。
您可以使用文本中的多个词语进行搜索:仅显示包含这些特定词语的文档,并且逐个显示。
搜索不区分大小写。
您可以使用关键字进行筛选:例如,如果选择“已标记”,则仅显示已标记的文档
您可以使用多个关键字进行筛选:例如,如果您选择“已标记”和“训练集”,则仅显示标记为“已训练”的已标记文档。关键字的出现顺序无关紧要。
在当前文档中启动搜索,方法是单击屏幕左下方的 图标,输入要搜索的文本,然后按 Enter。
与搜索匹配的所有文本实例都将以黄色高亮显示,并且文档查看器会自动滚动到第一个位置。要从一个文本实例导航到另一个文本实例,请按 Enter 或 Page Down 和 Page Up。
“搜索”选项具有一个下拉菜单,打开时会显示以下筛选条件:
- “训练集”- 指示要用于训练模型的文档数。自动化操作。
- “验证集”- 指示在模型训练完成后要用于验证模型的文档数。训练集和验证集之间的拆分目标为 80%-20%。自动化操作。
- “训练集和验证集”(Training and validation set) - 指示在“训练集”(train-set) 和“验证集”(validate-set) 筛选器中找到的文档数。自动化操作。
- “评估集”- 指示在导入期间选中了“评估集”复选框并用于在训练管道阶段评估模型的文档数。有关上述内容的更多信息,请参见此处。手动操作
- 已删除 - 指定已删除文档的数量。有关上述内容的更多信息,请参见此处。
- 标签 - 指定带有标签的文档数。标签由每个文档至少一个标记/手动编辑的字段定义。
- 未加标签 - 指定没有标签的文档数。
- “批次名称”- 指定已包含在同一导入操作中的文档。
将文档分配到训练集或验证集是由应用程序在导入时完成的。
如果在导入期间选中了“评估集”复选框,则导入的文档最终会出现在评估集中。