Document Understanding
2020.10
False
横幅背景图像
已弃用
Document Understanding 用户指南
上次更新日期 2024年2月28日

创建和配置字段

添加字段

字段无法删除或重命名,因此在添加新字段之前请先三思。但是,如果您稍后决定不使用某些字段来训练 ML 模型,您始终可以使用“编辑字段”窗口中的“隐藏”复选框将其隐藏。

有关字段、其含义以及何时使用的详细信息,请单击此处

注意:最多可以创建 40 个字段。

列字段

发票单据上的行项目“说明”或“单价”就是列字段的示例。

  1. 在页面顶部的表格部分单击“+”,以添加新的“列”字段。系统将显示“创建列字段”窗口。
  2. 在“输入唯一字段名称”字段中,填写该字段的唯一名称。该字段不接受大写字母。
  3. 单击“创建”。系统将显示“编辑字段”窗口。
  4. 从“内容类型”下拉列表中,选择内容类型。
  5. 从“评分”下拉列表中,选择在运行模型预测评估时用来确定准确性的度量。
  6. 单击“热键”字段,然后按键盘上的某个键以自动填充该字段。
  7. 在“颜色”字段中,填写所需字段颜色的十六进制代码。
  8. 如果要检查的字段可能跨越多个文本行,例如地址或说明,请选中“多行”复选框。如果未选择此选项,则仅返回第一行。
  9. 如果要将此字段用作表格中明细项目或行之间的分隔符,请选中“拆分项目”复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票行项目中的“行金额”字段。
  10. 如果您不希望此字段成为导出数据集的一部分,请选中“隐藏”复选框。
  11. 单击“保存”以保存您的设置。

常规字段

这些字段在给定文档中仅出现一次。发票单据上的行项目“发票编号”或“总金额”就是列字段的示例。

  1. 在右侧窗格的“常规字段”部分中单击“+”。系统将显示“创建常规字段”窗口。
  2. 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。
  3. 单击“创建”。系统将显示“编辑字段”窗口。
  4. 从“内容类型”下拉列表中选择内容类型。
  5. 如果模型预测给定页面上某个字段的多个实例,请从“后处理”下拉列表中选择后处理机制。
  6. 单击“热键”字段,然后按键盘上的某个键以自动填充该字段。
  7. 在“颜色”字段中,填写所需字段颜色的十六进制代码
  8. 从“多页”下拉列表中,选择数据检索策略。如果字段出现在多页文档的几个不同页面上,可以使用此选项。此选项定义模型如何决定返回哪个页面。
  9. 从“评分”下拉列表中,选择在运行模型预测评估时用来确定准确性的度量。
  10. 如果要检查的字段可能跨越多个文本行,例如地址或说明,请选中“多行”复选框。如果未选择此选项,则仅返回第一行。
  11. 如果您不希望此字段成为导出数据集的一部分,请选中“隐藏”复选框。
  12. 单击“保存”以保存您的设置。

分类字段

整体上引用文档的数据点。例如,收据的“费用类型”(伙食费、住宿费、航空费、交通费)或发票的“币种”(美元、欧元和日元)就是分类字段的示例。

  1. 在右侧窗格的“分类字段”部分中单击“+”。系统将显示“创建分类字段”窗口。
  2. 在“输入唯一字段名称”字段中填写字段的唯一名称。该字段不接受大写字母。
  3. 单击“创建”。系统将显示“编辑字段”窗口。
  4. 在文本区域中,填写类列表,然后以逗号分隔列表的形式键入名称。
  5. 单击“保存”以保存您的设置。
    重要提示:与常规字段和列字段相反,分类字段不进行重新训练。例如,对于“币种”字段,如果您在仅包含美元发票和印度卢比发票的数据集上对发票模型进行重新训练,则生成的模型将只能识别这两种货币。

字段说明

管理栏

显示在 Data Manager 中的页面顶部。使您能够执行多项操作:在文档之间导航、删除文档、筛选文档、运行 AI 模型预测以及导入和导出文档。

字段

描述

在与活动筛选器匹配的文档之间导航。

在两个箭头之间显示一个计数器。

它显示了与活动筛选器匹配的文档总数和当前文档的编号。

删除/恢复

删除或恢复文档。

“筛选器”下拉列表

筛选文档。此筛选器也适用于导出的数据。提供以下选项:

  • 训练验证集

    -test-set

    -“已删除”

    -labeled

    -unlabeled

    -<batch_name>

预测

运行 AI 模型预测并显示结果。

导入

导入要标记的新文档。

导出

导出已标记的数据。

活动筛选器将应用于导出的数据。

[文档名称]

当前处于活动状态的文档的名称。

[用户名]

当前活动用户的用户名。

注销

从 Data Manager 中注销。

注销还会清除 Cookie。

Help

创建字段窗口

使您能够配置要添加的字段的名称。

字段

描述

输入唯一的字段名称

字段的名称。只能包含小写字母、数字、下划线“_”和短划线“-”。

编辑字段窗口

使您能够配置常规字段和列字段。

字段

描述

内容类型

字段的内容类型。提供以下选项:

  • “字符串”– 适用于公司名称或地址,以及付款条款,或者适用于 RPA 开发者在 RPA 工作流中更喜欢手动构建解析逻辑或格式化逻辑的任何其他字段。
  • “数字”– 适用于金额或数量,具有小数/千位分隔符的智能解析功能。
  • “日期”– 模型以 yyyy-mm-dd 格式解析、格式化和统一输出。
  • “电话号码”- 适用于电话号码。
  • ID 号 – 适用于字母数字代码和 ID 号,类似于字符串内容类型,但包括清除“:”之前的所有字符。如果要提取的 ID 号可能包含“:”字符,请改用字符串内容类型,以避免数据丢失。

后处理

仅对常规字段显示。

后处理机制。提供以下选项:

  • “第一个跨度”– 如果模型在给定页面上预测了某个字段的多个实例,则模型将返回第一个实例。
  • “最大值”– 如果模型在给定页面上预测了某个字段的多个实例,则模型将返回最大的数值。这仅对数字内容类型显示,并且适用于“总金额”字段。
  • 最长值 – 如果模型在给定页面上预测了某个字段的多个实例,则模型将返回包含最长字符串的值。

热键

字段的快捷键。

颜色

字段的颜色。

多页

字段出现在文档中的多个页面上时的数据返回策略。提供以下选项:

  • “最高置信度”-“字符串”、“电话号码”和“数字”内容类型的默认选项。
  • “第一次出现”-“ID 号”和“数据”内容类型的默认选项。
  • 最后一次出现

    -“最长字符串” - 仅对字符串内容类型显示。

    -“最短字符串”- 仅对字符串内容类型显示。

    -“最高数值”- 仅对数字内容类型显示。

    “最低数值”- 仅对“数字”内容类型显示。

计分

只能为字符串类型内容配置。所有其他内容类型均使用精确匹配评分策略。

用于在运行模型预测评估时确定准确度的方法。

  • 精确匹配 – 只有当预测与真实值完全匹配时,预测才会被视为正确(分数为 1)。如果预测与真实值有差别,即使只是一个字符的不同,预测也会被视为不正确(分数为 0)。
  • Levenshtein – 根据预测与真实值之间的 Levenshtein 距离,预测被视为部分正确。如果系统除最后 2 个字符之外正确预测了 10 个字母组成的值,则该预测的分数为 0.8。

多行

对于可能跨多行的字段(例如地址或说明),请选中此复选框。否则,仅返回第一行。

拆分项目

仅对列字段显示。

如果要将此字段用作表格中行项目或行之间的分隔符,请选中此复选框。出现此字段的任何行都会被视为表格中的新行项目或行。这通常用于发票行项目中的“行金额”字段。

隐藏

如果您不希望此字段成为导出的数据集的一部分,请选中此复选框。

Data Manager 帮助菜单

“标签控件”部分显示处理数据时要使用的控件。

“文档快捷方式”部分显示用于执行各种操作(例如导航和用户界面缩放)的快捷方式。

“配置”部分显示有关在安装过程中执行的实例配置的详细信息。

通过“错误报告”部分,您可以查看最近生成的日志。

  • 添加字段
  • 列字段
  • 常规字段
  • 分类字段
  • 字段说明
  • 管理栏
  • 创建字段窗口
  • 编辑字段窗口
  • Data Manager 帮助菜单

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.