- 概述
- 文档处理合同
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding 流程:Studio 模板
- Document Understanding 活动
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
呈现验证站点
UiPath.IntelligentOCR.Activities.ValidationStation.PresentValidationStation
打开验证站点,能够帮助用户检查并更正文档分类和数据自动提取结果。
常见
- “显示名称”- 活动的显示名称。
输入
- 自动提取结果 - 自动生成的提取结果,存储在
ExtractionResult
专有变量中。如果将变量添加到该字段,则“验证站点”会显示自动提取结果,以供您检查并作出修改。如果该字段留空,则“验证站点”不会包含任何自动提取的数据。此字段仅支持ExtractionResult
变量。 - 文档 对象模型 - 要用于验证文档的文档对象模型。 此模型存储在
Document
变量中,可以从“ 数字化文档” 活动中检索,或者在旧版工作流中,从“ 准备验证站点数据 ”活动中检索。 有关如何执行此操作的更多信息,请参阅每个活动的文档。 此字段仅支持Document
变量。 - “文档路径”- 要验证的文档的路径。此字段仅支持字符串和字符串变量。
注意:该属性字段支持的文件类型包括“
.png
”、“.gif
”、“.jpe
”、“.jpg
”、“.jpeg
”、“.tiff
”、“.tif
”、“.bmp
”和“.pdf
”。 - “文档 文本”- 文档本身的文本,存储在字符串变量中。 可以从“ 数字化文档” 活动中检索此值,或者在旧版工作流中,从“ 准备验证站点数据 ”活动中检索此值。 有关如何执行此操作的更多信息,请参阅每个活动的文档。 此字段仅支持字符串和字符串变量。
- “分类”- 要处理的文档的分类,存储在
DocumentTaxonomy
变量中。此字段仅支持DocumentTaxonomy
变量。
其他
- 字段验证置信度百分比(预览版)- 设置呈现验证站点时要使用的上限置信度分数。
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
- “仅 显示相关页面范围” - 如果选中,则仅显示提取结果中提到的页面范围,并隐藏范围之外的页面。
输出
- 已验证的提取结果 - 人工验证流程的提取结果,存储在
ExtractionResult
变量中。重要提示:如果您使用的是 Intel Xe GPU 且验证站点未正确显示,我们建议将图形驱动程序更新到最新版本。有关详细信息,请参阅此页面。
验证站点是一款功能强大的工具,让用户可以查看和更正从文件中自动提取的数据,或手动处理文件以进行数据提取。
打开验证站点后,系统会显示所有提取的信息以及正在处理的文件:
验证站点中显示的字段正是在工作流中所使用的分类中定义的字段。
文档视图
验证站点的右侧区域包含原始文档的交互式版本,可以在其中选择文本或文档部分,并且可以根据数字化流程的输出单击文字。
此区域还包含用于“放大和缩小”、“选择和旋转”页面、“搜索文档”或“切换到文本视图”的选项。
以下是“验证站点”屏幕右侧的可用选项:
选项 |
描述 |
---|---|
|
显示验证站点支持的所有可用键盘快捷方式。 - 键盘快捷方式 - 隐藏提取的令牌 - 从左到右切换面板侧 |
|
在文档的文本视图和图像视图之间切换。 - 图像视图 - 纯文本视图 |
- 文本 仅在“ 仅文本视图 ”选项处于活动状态时才处于活动状态 |
在文本视图中设置选择模式 - 文本 - 令牌 |
|
在图像视图中设置选择模式 - 令牌 - 自定义区域 - 选中后选择 |
|
顺时针旋转当前页面。 |
|
在验证站点使用的文档结果之间启动搜索。 |
|
重置文档的缩放级别。仅当存在先前已放大或缩小文档的情况,才启用此选项。 |
|
放大文档。 |
|
缩小文档。 |
以下是如何使用“切换”、“放大”、“缩小”和“重置缩放比例”选项的示例:
要放大或缩小,您还可以按住 Ctrl 键并滚动鼠标滚轮:按住 Ctrl 键并向上滚动可查看文档的特定部分;按住 Ctrl 键并向下滚动可查看文档的较大部分。
以下示例说明了“旋转”选项:
图像视图中可见的区域选择如下所示:
相应地,请查看文本视图中的区域选择:
下一个示例说明了如何使用“搜索”选项:
有许多键盘快捷方式可用来优化与“验证站点”的人工交互。我们建议您尽量使用。您可以在“键盘快捷键”弹出窗口中查看这些快捷方式。
快捷方式 |
描述 |
---|---|
n |
移至下一个字段 |
p |
移至上一个字段 |
f v |
将值标记为已验证 |
f c |
更改提取的值 |
f z |
还原为上一个值 |
f a |
添加其他值 |
f s |
在建议之间切换 |
Esc |
Exits edit mode (for Fields and Tables)
|
Del |
|
CTRL SHIFT ENTER |
保存未确认的字段 |
CTRL SHIFT S |
将数据另存为草稿 |
Alt p |
切换 PDF 查看器焦点 |
d + |
放大 |
d - |
缩小 |
d 0 |
重置缩放比例 |
d r |
顺时针旋转页面 |
d t |
切换文本模式 |
/ |
启动搜索 |
d s |
更改选择模式 |
d a |
清除所选择的绘制锚点 |
d h |
切换提取的令牌 |
s ↑ |
右移所选行 |
s ← |
左移所选行 |
s ↑ |
上移所选行 |
s ↓ |
下移所选行 |
s d |
复制所选行 |
s v |
垂直行 |
s f |
水平行 |
s a |
通过移动鼠标自动检测 |
s t |
手形工具 - 移动并删除行 |
? |
此屏幕 |
! |
将文档记录为异常 |
CTRL ENTER |
保存数据 |
CTRL DEL |
放弃所有当前更改 |
→ |
移至右侧单元格 |
← |
移至左侧单元格 |
↑ |
移至顶部单元格 |
↓ |
移至底部单元格 |
t v |
将单元格标记为已验证 |
t c |
更改提取的单元格 |
t z |
还原为上一个单元格值 |
t d |
放弃表格中的更改 |
t DEL |
删除选定的单元格 |
t ESC |
关闭表格编辑器 |
1 2 3 4 5 6 7 8 9 q w e r y a g h j k l z x c v m @ # $ % ^ & *** ( ) [ ] { |
|
使用键盘快捷方式浏览验证站点。 激活“ 切换键盘快捷方式 ” 选项,以避免意外触发键盘快捷方式。
拥有一个干净的视图面板,并使用“ 隐藏提取的令牌 ”选项隐藏提取的令牌的高亮显示。
确定验证面板应位于屏幕左侧还是右侧。
数据提取部分
左侧区域会显示您为当前验证选择的文档类型。您可在其中选择每个元素的状态,并将其与文档中的相应文字或区域相关联。
提取的信息的可信度可以通过 OCR 或 提取显示。
OCR 置信 度级别由工作流中用于提取的 OCR 引擎提供。 如果使用的 OCR 未报告任何置信度级别,则显示 N/A 而不是百分比。
“ 提取可信度 ”级别由工作流中使用的提取程序指定。
置信度分数应仅用于指导目的。 您可以通过手动验证数据来提高置信度分数。
另一种可视化置信度级别的方法是根据您设置的阈值对其进行筛选。
如果您更改特定字段的引用,则每个字段的 OCR 置信度级别会单独更改。
您可以使用字段快捷方式为字段分配值或在字段之间切换。将值分配给字段后,系统会根据所选字段的颜色高亮显示该字段。
对于分配的值,表格字段中会显示一个文档裁剪结果。这有助于更好地定位从中提取值的区域,还可以通过将其与文档裁剪结果进行比较来再次检查值。
“文档类型”是一个特殊字段,您可以根据需要执行以下操作:
- 如果提取结果包含一个文档类型,并且该文档类型正确无误,则无需执行任何操作。
- 如果提取结果中包含一个文档类型,并且该文档类型有误,则您必须选择正确的文档类型,并从文档中提供相关证据。
- 如果未提供提取结果,并且分类中仅有一种文档类型,则预选该文档类型,但这需要证明。
- 如果未提供提取结果,并且分类中存在多种文档类型,则您必须手动选择所需的文档类型,并为此提供证据。
自动提取的字段具有同样以颜色进行编码的置信度百分比,旨在帮助您检测需要帮助的字段。
置信度分为四个级别:
- 低于 50%,以红色标记
- 介于 50% 和 85% 之间,以黄色标记
- 介于 86% 和 99% 之间,以浅绿色进行颜色编码
- 100%,以绿色进行颜色编码
要提高可信度,您可以通过手动选择信息来验证信息,如下面的 GIF 所示:
所有包含信息的字段都有一个“选项”下拉菜单,可通过单击 按钮获取此菜单。下拉列表变为可见,显示多个编辑选项。
该 菜单包含以下选项:
- 更改提取的值 - 使用手动选择的值更改自动提取的值。仅当从文档中选择一个或多个与原始值不同的值时,此字段才处于活动状态。
- 还原为上一个值 - 将字段的值重置为其上一个状态。仅当存在先前已更改或删除某个值的情况时,此选项才处于活动状态。
- 标记为缺失 - 如果文档中没有信息,则将字段标记为缺失。
选择模式
使用验证站点向导时,有几种选择文本的方法。使用这些方法,您可以快速浏览整个文档,并轻松选择所需的字词来验证字段。
以下是所有可用选择选项的列表:
- 选择一个单词 - 单击所需的单词。
- 选择连续的单词 - 单击第一个单词,然后按住 Shift 键并单击范围中的最后一个单词。
- 选择多个不同的单词 - 单击第一个单词,然后按住 CTRL 键并单击其余所需的单词。
- 合并多个选择 - 单击第一个单词,然后按住 Shift 键并单击范围中的最后一个单词作为第一个选择,然后按住 CTRL 键并单击以添加另一个范围,直到完成选择。
- 区域选择 - 进行选择并选择选择类型:
- 令牌 - 选择所选区域中的所有单词。
- 自定义区域 - 仅捕获区域,而不捕获其中的文字。
- 选中后选择 - 使用单独的单词选择整个区域,由您决定选择的类型。
其他选项
- “ 备注 ” - 仅当在 分类管理器 中启用了特定字段的 验证程序备注 时,才会显示此字段。根据其配置方式,它可以是:
- 此为文本字段,您可以在其中添加与该字段相关的注释,例如选择某个值的原因或者是否应执行任何额外检查。
- 无法编辑的文本。
- 单选按钮形式的几个选项,您可以根据情况从中选择一个单选按钮。
- 编辑字段的值 - 将鼠标悬停在字段上,单击值,然后添加所需的输入,以更改字段的内容。
- The
选项 - 将字段还原为先前状态。 单击此选项后退一步,这意味着如果您对该字段进行了多次更改,则可能需要多次单击才能返回到某个值。 仅当先前已修改或删除值时,此字段才处于活动状态。
- The
选项 - 使用“ 自定义区域 ” 或“ 令牌 ” 选项向字段添加值。 当在文档中进行选择并且与字段中的选择不同时,该按钮将变为可用。 始终可以对多值字段进行选择,并且仅当该字段没有值时才可以对单值字段进行选择。
- The
选项- 确认字段中包含的信息。 确认后,复选框将变为蓝色,如下所示且“已验证”标签将添加到该字段中。
手动验证字段后,您仍然可以通过单击提取可信度来检查该字段的原始值。 此功能仅适用于“ 提取 ”置信度级别。
验证站点的界面是交互式的,这意味着在左侧选择字段时,右侧会高亮显示该字段,从而将焦点移至该字段上。
这也适用于文本视图:
- The
选项 - 用于选择文档中的其他值并将其添加到特定字段。
- The
“选项 ” - 用于向字段添加值,而无需从文档中引用。
表格字段 - 单元格级别处理
对于工作流中使用的 OCR 和提取程序,提取的可信度可用于每个提取的单元格。 从验证站点的左上方在它们之间切换。
您可以在下面找到表格字段所有可用选项的说明:
图标 |
描述 |
---|---|
|
指示文档中表格的区域。 |
|
创建新表格,打开表格提取工具。 |
|
打开包含以下选项的下拉列表:
|
|
选中后,确认数据准确性。 |
|
缺少字段值时启用。 |
|
更改或删除初始提取值后启用。选中后,它将恢复先前的值。 |
|
将字段标记为缺失。 |
所有表格字段都有一个下拉菜单,其中包含以下选项:
- 更改提取的值 - 从文档中选择一个新值并替换初始值。仅当新选择的值与原始选择不同时,此字段才可用。
- 还原为上一个值 - 将实际值替换为上一个值。此字段仅在更改初始值时才会处于活动状态。
- 标记为缺失 - 如果文档中没有信息,则将字段标记为缺失。
每行末尾的下拉菜单包含以下选项:
图标 |
描述 |
---|---|
|
转换表格标头中的选定行。该行不再显示在表格正文中,但只要选择了标头的字段,就可以将信息可视化。 |
|
高亮显示选定行。 |
|
提取新行并将其放置在选定行的下方。 它启用自定义选择工具,并为您提供手动选择新行的可能性。 选择新行的区域后,您必须定义每一列。 为此,请使用下表中提供的可用选项。 |
|
在选定行上方插入一个新的空行。该行将自动添加到表格中,但所有字段都标记为未提取。您必须从文档中手动选择值,并使用添加提取的值。 |
|
应用与在上方插入行选项相同的原则,唯一的区别是将行插入实际选择的下方而不是上方。 |
|
删除行。 |
以下 GIF 对所有选项进行了说明:
编辑或审核表格中的字段后,确认框的外观会更改。 要确认数据,您必须选中该框。
表格字段 - 表格级别处理
可以直接从“验证站点”向导中手动选择和定义表格。如果未选择任何表格,或者您对自动选择不满意,则可以使用第一行末尾的下拉菜单中的可用选项。
- 如果未提取表格单元格的值,则可以通过进入“选择模式”,选择自定义区域选项并标记表格单元格区域,手动将值添加到该表格单元格中。
- 提取新表格和从此处提取行选项使用相同的功能,并使您能够定义新值。
表格标题中几乎没有其他可用选项。 您可以使用它们来提取新表格,突出显示现有表格或仅突出显示其中的一行,或者删除整个表格。
图标 |
描述 |
---|---|
|
用新选择的表格替换现有表格。您需要标记所有行和列。请记住,第一行将成为表格的标头。 |
|
高亮显示整个提取的表格区域。 |
|
高亮显示表格中的选定行。 |
|
删除现有表格。 |
以下 GIF 说明了上表中提到的选项。
- 提取新表格:
使用提取新表格选项时,您可以通过启用提取标头功能,来定义表格标头。从文档中选择信息,或将一个现有行转换为表格的标头,也可以定义标头。
- “高亮显示表格”、 “高亮显示行”和“ 删除所有行 ”选项:
“ 提取新表格 ” 选项具有许多有用的功能,可以简化您的工作。 下表对它们进行了说明。
图标 |
函数 |
---|---|
|
删除所选内容中的所有可见行。 |
|
从所选内容中仅删除选定的行。 |
|
在所选内容中启用水平行。 |
|
在所选内容中启用垂直行。 |
|
使您能够使用鼠标调整行的方向。 |
|
启用行的选择、重新排列和删除。 |
下面的 GIF 说明了如何使用“ 提取新表格 ”选项可用的功能。 请注意,这些函数也可在“ 从此处提取行 ”选项中使用。
您可以单击保存新表格按钮以自动确认所有字段,也可以通过单击关闭按钮拒绝该操作,返回到表格选择,然后手动确认每个字段。
值格式和语言设置
使用“数字”、“日期”和“地址”字段,您可以查看并更正特定值的格式化(解析后)部分。可编辑部分如下:
字段类型 |
可编辑的格式化部分 |
---|---|
数字 | 值(最多八位小数) |
日期 |
|
地址 |
|
名称 |
|
当您提取或更正任何这些类型字段的值时,验证站点会尝试自动将该值解析为其格式化的组件。
语言设置显示在文档中检测到的流行语言,也就是在数字化过程中所识别的语言。这使验证站点能够根据文档的语言更准确地解析数字和日期。您可以使用下拉菜单来更改语言设置。
这样,当您手动提取或更改日期或数字值时,验证站点将首先尝试根据所选语言设置所选字符串的格式,如果解析不成功,则回退到英语(美国)。格式设置功能仅适用于值的已设置格式且可编辑的部分,不适用于原始字符串值。
为确保实现最佳的自动格式化值检测,我们建议您检查检测到的语言,并在必要时进行更正。
报告异常
您可以选择将文档报告为异常。如果发生这种情况,“呈现验证站点”将引发异常,RPA 工作流应捕获并单独处理该异常。异常消息显示由用户填写的异常原因。
以下是将文档报告为异常的方法:
数据确认和验证
您可以选择手动或自动确认所有字段。对于手动确认,您需要选中每个字段的复选框。如果未手动确认复选框,则单击“保存”按钮后会自动完成此过程,然后通过单击“继续并保存”按钮来确认操作。
验证站点底部提供以下选项:
按钮 |
函数 |
---|---|
|
保存已确认的字段。 |
|
保存并关闭表格选择区域。仅当表格字段处于活动状态时,该按钮才会启用。 |
|
将文档报告为异常。 |
|
仅在并非所有值都手动确认时启用。选择后,系统会自动确认并保存所有数据。 |
|
未对表格进行任何更改时启用。 |
|
对表格进行更改后启用。 |
|
在用户单击“消除”后启用。放弃对表格所做的所有更改。 |
Document Understanding 集成
显示验证站点活动是 Document Understanding 解决方案的一部分。如需了解详情,请访问 Document Understanding 指南。