- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
Document Understanding 用户指南
创建和配置字段
字段无法删除或重命名,因此在添加新字段之前请先三思。但是,如果您稍后决定不使用某些字段来训练 ML 模型,您始终可以使用“编辑字段”窗口中的“隐藏”复选框将其隐藏。
有关字段、其含义以及何时使用的详细信息,请单击此处。
发票单据上的行项目“说明”或“单价”就是列字段的示例。
- 在页面顶部的表格部分单击“+”,以添加新的“列”字段。系统将显示“创建列字段”窗口。
- 在“输入唯一字段名称”字段中,填写该字段的唯一名称。该字段不接受大写字母。
- 单击“创建”。系统将显示“编辑字段”窗口。
- 从“内容类型”下拉列表中,选择内容类型。
- 从“评分”下拉列表中,选择在运行模型预测评估时用来确定准确性的度量。
- 单击“热键”字段,然后按键盘上的某个键以自动填充该字段。
- 在“颜色”字段中,填写所需字段颜色的十六进制代码。
- 如果要检查的字段可能跨越多个文本行,例如地址或说明,请选中“多行”复选框。如果未选择此选项,则仅返回第一行。
- 如果要将此字段用作表格中明细项目或行之间的分隔符,请选中“拆分项目”复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票行项目中的“行金额”字段。
- 如果您不希望此字段成为导出数据集的一部分,请选中“隐藏”复选框。
- 单击“保存”以保存您的设置。
这些字段在给定文档中仅出现一次。发票单据上的行项目“发票编号”或“总金额”就是列字段的示例。
- 在右侧窗格的“常规字段”部分中单击“+”。系统将显示“创建常规字段”窗口。
- 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。
- 单击“创建”。系统将显示“编辑字段”窗口。
- 从“内容类型”下拉列表中选择内容类型。
- 如果模型预测给定页面上某个字段的多个实例,请从“后处理”下拉列表中选择后处理机制。
- 单击“热键”字段,然后按键盘上的某个键以自动填充该字段。
- 在“颜色”字段中,填写所需字段颜色的十六进制代码
- 从“多页”下拉列表中,选择数据检索策略。如果字段出现在多页文档的几个不同页面上,可以使用此选项。此选项定义模型如何决定返回哪个页面。
- 从“评分”下拉列表中,选择在运行模型预测评估时用来确定准确性的度量。
- 如果要检查的字段可能跨越多个文本行,例如地址或说明,请选中“多行”复选框。如果未选择此选项,则仅返回第一行。
- 如果您不希望此字段成为导出数据集的一部分,请选中“隐藏”复选框。
- 单击“保存”以保存您的设置。
整体上引用文档的数据点。例如,收据的“费用类型”(伙食费、住宿费、航空费、交通费)或发票的“币种”(美元、欧元和日元)就是分类字段的示例。
- 在右侧窗格的“分类字段”部分中单击“+”。系统将显示“创建分类字段”窗口。
- 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。
- 单击“创建”。系统将显示“编辑字段”窗口。
- 在文本区域中,填写类列表,然后以逗号分隔列表的形式键入名称。
- 单击“保存”以保存您的设置。
重要提示:与常规字段和列字段相反,分类字段不进行重新训练。例如,对于“币种”字段,如果您在仅包含美元发票和印度卢比发票的数据集上对发票模型进行重新训练,则生成的模型将只能识别这两种货币。
显示在 Data Manager 中的页面顶部。使您能够执行多项操作:在文档之间导航、删除文档、筛选文档、运行 AI 模型预测以及导入和导出文档。
字段 |
描述 |
---|---|
→ |
在与活动筛选器匹配的文档之间导航。 在两个箭头之间显示一个计数器。 它显示了与活动筛选器匹配的文档总数和当前文档的编号。 |
删除/恢复 |
删除或恢复文档。 |
“筛选器”下拉列表 |
筛选文档。此筛选器也适用于导出的数据。提供以下选项:
|
预测 |
运行 AI 模型预测并显示结果。 |
导入 |
导入要标记的新文档。 |
导出 |
导出已标记的数据。 活动筛选器将应用于导出的数据。 |
[文档名称] |
当前处于活动状态的文档的名称。 |
[用户名] |
当前活动用户的用户名。 |
注销 |
从 Data Manager 中注销。 注销还会清除 Cookie。 |
Help |
使您能够配置常规字段和列字段。
字段 |
描述 |
---|---|
内容类型 |
字段的内容类型。提供以下选项:
|
后处理 |
仅对常规字段显示。 后处理机制。提供以下选项:
|
热键 |
字段的快捷键。 |
颜色 |
字段的颜色。 |
多页 |
字段出现在文档中的多个页面上时的数据返回策略。提供以下选项:
|
计分 |
只能为字符串类型内容配置。所有其他内容类型均使用精确匹配评分策略。 用于在运行模型预测评估时确定准确度的方法。
|
多行 |
对于可能跨多行的字段(例如地址或说明),请选中此复选框。否则,仅返回第一行。 |
拆分项目 |
仅对列字段显示。 如果要将此字段用作表格中行项目或行之间的分隔符,请选中此复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票行项目中的“行金额”字段。 |
隐藏 |
如果您不希望此字段成为导出的数据集的一部分,请选中此复选框。 |