- 概述
- 入门指南
- Activities (活动)
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- 模型详细信息
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 数据与安全性
- 许可和计费逻辑
Document Understanding 传统用户指南
如果您使用的是 Intel Xe GPU 且分类管理器未正确显示,我们建议将图形驱动程序更新到最新版本。有关详细信息,请访问此页面。
分类管理器可用于创建和编辑特定于当前自动化项目的分类文件。该分类文件包含由用户定义并按“组”和“类别”分类的文档类型。
您可以使用“加载分类”活动将分类文件转换为 .NET 数据类型,然后将其作为输入传递给以下活动:
只有在安装 v1.6.0 或更高版的 UiPath.IntelligentOCR.Activities 包作为项目依赖项后,才能访问分类管理器。包安装完成后,“向导”部分的功能区中会显示“分类管理器”按钮。
使用分类管理器
“分类管理器”窗口用于创建按组和类别组织的文档类型。首次在项目中打开“分类管理器”时,系统不会定义任何组、类别或文档类型。
图 1.映射任何文档类型或字段之前的“分类管理器”
建立结构
第一步是创建组或文档类型。两者之间的区别在于,组涉及层次结构,而文档类型可以创建为单个文件。复杂的项目意味着创建组、类别和文档类型,而简单的项目只能要求创建一种或两种文档类型。
创建组
创建组时,要为在组内创建的文档类型也创建类别。这可以通过点击“组”按钮来完成。选择组名称后,可以使用“保存”按钮或使用 Enter 键来保存该名称。
创建类别
定义并选择组后,您可以使用其定义的按钮在组内创建“类别”和/或“文档类型” 。选择“保存”或使用 Enter 键以保存配置。
创建文档类型
您可将“文档类型”作为组的一部分或单个文档创建。在组内创建时,请确保选中该组,然后选择“文档类型” 。
如果将“文档类型”创建为单个文件,请确保未选择任何组,然后选择“文档类型” 。选择“文档类型”后,输入文件的名称,然后选择“保存” 。
使用 Studio 2020.10 版从 Orchestrator 提交 Document Understanding 操作时请确保分类不包含在没有类别的情况下创建的文档类型。
选择已创建的“文档类型” ,您可以更改其名称、将其唯一 ID 复制到剪贴板或将其重新分配给另一个组或类别。您还可以输入文档类型的代码。
Once a document type is saved, a Document Type ID is generated for it. Opening the document for editing displays the ID next to the Document Type Name tab. The Document Type ID has a structure of the type Group.Category.Document and can be copied to the clipboard. The Document Type ID code is an optional functionality and it can be used to find your documents or map your documents to the Document Types that you define in the taxonomy.
配置文档类型的显示设置
创建文档类型后,您可以配置其显示设置。在“分类管理器”中选择文档类型,然后转到“显示设置” 。您可以更改以下配置:
-
OCR 置信度阈值(阈值) :在文档类型级别设置最低置信度阈值。当文档在验证站点中显示时,字段的OCR 置信度和提取置信度级别必须高于您在分类管理器中配置的阈值。OCR 置信度阈值的默认值为 90%。
-
日期显示格式:为文档类型显示的日期格式。
默认值为
YYYY-MM-DD。 -
数字小数分隔符- 要用于文档类型的数字小数分隔符。
-
千位数字分隔符:要用于文档类型的千位数字分隔符。
创建字段
选择“文档类型” 后,可以使用“字段”按钮创建新字段。选择“字段”按钮后,您可以为字段输入名称,然后从下拉列表中选择其类型。
“字段”类别有两个选项卡: “详细信息”和“规则” 。“详细信息”选项卡提供有关所选字段的信息,例如字段名称、分配的热键或字段类型,而“规则”选项卡则允许您创建字段的提取结果需要满足的规则。
提供以下字段类型:
- 文本
- 数字
- 货币量
- 日期 - 选择此类型后,便可指定预期格式(可选)。
备注:
如果要添加预期格式,请使用符合 MSDN (Microsoft Developer Network) 要求的格式。提取程序可能会使用此格式,并且在尝试将日期解析为日、月和年等组成部分时,数据提取作用域活动也会使用此格式。
- 名称
- Address
- 设置 - 选择此类型后,即可从预先建立的列表中向字段添加多个值。
- 布尔值
- 表格 - 选择此类型后,便可编辑表格结构,其中包括添加列及编辑列名称和类型。
- “字段组” - 选择此类型后,将在“验证站点” 中显示分层字段结构,从而对提取的数据进行逻辑组织。字段组会保留所提取数据的层次结构,从而使大型多页文档数据包的验证更加轻松快捷。
详细信息选项卡
创建新字段后,选中该字段以查看更多信息。默认情况下,当您打开字段时,系统将显示“详细信息”选项卡,您可以在其中修改字段的名称、颜色或热键。您还可以指定它是否为多值(为多值),或者是否允许处理文档中没有证据的值(需要引用)。多值选项允许一个字段具有多个值,但不限于特定列表。
有关如何使用这两个字段的更多信息,请查看以下说明:
- 为多值:如果某个字段设置为多值,则可以为该特定字段报告多个值。例如,您想要提取一个“总监列表”,其中的条目数量不定。想象一下像单列表格这样的多值字段。
- 需要引用:当需要引用字段时,仅当您从验证站点中看到的文档中选择某些内容时,才可以为其添加值。对于要捕获可能在文档中不可见的值的特殊字段,您可以将“需要引用”切换到“关闭”。这样一来,用户即可添加值,而无需在文档中指定该值的来源位置。
您还可从下拉列表中选择字段的“类型”,或添加“默认值” 。使用“默认值”字段定义要在“提取结果”中填充的值,以防文档中标识的字段没有值。
验证设置
在“验证设置”下,您可以选择设置“提取置信度阈值” 。在“验证站点”中验证字段时会考虑此阈值。要设置提取置信度阈值,请转到“提取置信度阈值” ,然后输入一个 0 到 100 之间的值。
图 2. 字段的“详细信息”选项卡概览
您可以从“详细信息”选项卡中选择启用验证程序注释。通过设置验证程序注释,人工验证者可以添加有关其在验证过程中所做决策的注释。您可以配置以下设置:
- Read-only :如果启用,人工验证者可以将“验证站点”中的“提取结果”字段上设置的任何验证程序注释视为消息。如果禁用(默认状态),则人工验证者还可以在“验证站点”中编辑该说明,从而将有关决策的信息传达给机器人。
- 文本:如果选择文本,则验证程序备注在验证站点中显示为文本消息(启用编辑时或可编辑文本)。人工验证者可以在验证站点中查看、编辑或添加最多 200 个字符的消息 。
- “选项” :如果您选择“选项” ,则可以配置一系列人工验证者可以查看的单选按钮,如果不是只读选项,则可以在“验证站点”中进行选择。您最多可以添加 10 个选项。
可以使用旁边显示的“删除”按钮删除已创建的字段,也可以使用拖放功能对其进行重新排序。
也可以通过选择“删除” ,从“详细信息”窗口中删除字段。
重复以上步骤即可创建多个组、类别和文档类型,您后续还可使用“搜索”字段对其进行筛选。
规则选项卡
字段规则可帮助您优化提取结果,并在运行工作流时自动对其进行验证。它们的作用是提高提取效率,并通过高亮显示来帮助您轻松验证需要在验证站点中注意的字段。您可以创建适用于一个字段的多个规则。
You define a rule by setting the Evaluator type and the Criticality level.
评估者类型
Use the Evaluator Type to specify how the defined rules should be evaluated. There are two evaluator types that you can choose from: AND, OR.
| 评估者类型 | 描述 | 示例 |
|---|---|---|
| AND | 当需要执行所有规则时,请使用此赋值器类型。 | Rule : Invoice Number starts with A And ends with X.
|
| 或 | 只需执行其中一个规则。 | 规则:以 A OR 开头的发票编号为 123。
|
严重性级别
Indicates the criticality of all rules defined for a field. You cannot set a MUST level if the rule is broken in the Validation Station session. There are two criticality levels that you can choose from: MUST, SHOULD.
识别出设置的严重性级别后,将触发创建的规则。
When you want to submit a rule, a MUST rule requires 100% success, otherwise the Submit operation fails. A SHOULD rule allows you to Submit it even if the rule is broken.
您始终可以使用 UiPath.DocumentProcessing.Contracts 活动包中的ExtractionResult 类中的辅助方法来检查是否违反规则。
表 2. 显示“严重性级别”及其描述的表格
| 描述 | |
|---|---|
| MUST | 当创建的规则必须包含在“提取结果”流程中时,请使用此严重性级别。 |
| SHOULD | 当创建的规则是可选的时,请使用此严重性级别。 |
Once you have selected the Evaluator Type and the Criticality Level, you must set a type applicable for your newly created rule. There are several options you can choose from. Here's a complete list with all the available ones:
- 不为空
- 可能的值
- 开头为
- 结尾为
- 包含
- 定长
- 是电子邮件
- 正则表达式
备注:
您为其创建了规则的字段类型决定了规则类型的数量,您可以从中选择规则类型。例如,“文本”类型字段显示所有可能的规则类型,而“日期”类型字段仅显示两种规则类型,即“非空”和“可能”值。
规则类型
下表显示了每个可用规则类型的详细信息,并根据严重性级别和评估程序类型进行分类。
| 描述 | 字段类型 | 严重性级别 | 评估者类型 | |
|---|---|---|---|---|
| 不为空 | 提取的值不能为空,这意味着该字段为必填字段。 如果缺少该值,则需要验证/手动输入。 | 适用于以下类型的字段:
| MUST SHOULD | AND 或 |
| 可能的值 | 用户定义所有可能的值,提取的数据是创建规则时作为输入添加的值之一(例如,员工类型为“全职”、“兼职”或“实习生”)。 | 适用于以下类型的字段:
| MUST SHOULD | AND 或 |
| 表达式 | 定义用作提取数据规则的数学表达式。 | 适用于数字类型字段。配置规则时必须有一个条件。选择以下选项之一:
| MUST SHOULD | AND 或 |
| 开头为 | 这是一个固定规则,这意味着提取的值需要以用户添加的其中一个值开头。 | 适用于以下类型的字段:
| MUST SHOULD | AND 或 |
| 结尾为 | 这是一个固定规则,意味着提取的值需要以用户添加的其中一个值结尾。 | 适用于以下类型的字段:
| MUST SHOULD | AND 或 |
| 包含 | 这是一个固定规则,表示提取的值需要包含用户添加的其中一个值。 | 适用于以下类型的字段:
| MUST SHOULD | AND 或 |
| 定长 | 这是一个固定规则,意味着提取的值需要具有一定的固定长度。 | 适用于以下类型的字段:
| MUST SHOULD | AND 或 |
| 是电子邮件 | 这是一个固定规则,表示提取的值需要以电子邮件格式写入。 | 适用于以下类型的字段:
| MUST SHOULD | AND 或 |
| 正则表达式 | 这是一个固定规则,意味着提取的值需要包含与用户添加的其中一个值相似的正则表达式。 | 适用于以下类型的字段:
| MUST SHOULD | AND 或 |
使用规则
我们举一个例子来更好地理解这些规则的适用性。我们将为文档的“地址”字段创建一组规则。查看以下示例步骤,了解如何为字段创建一个新规则或一组规则:
- 在“分类”面板中选择一个字段。
- 转到“规则”选项卡。
- 选择“新增” ,以添加新规则。
- 输入
full address规则,该规则的“类型”为“包含” ,其“表达式”为st, str, street。 - 选择“评估程序类型” 。在此示例中,请选择“或” 。
- 选择“严重性级别” 。在此示例中,选择“必须” 。
- 选择“新增” 。
- 输入
phone number规则,该规则的“类型”为“非空” 。 - 选择“新增” 。
- 输入
city or state规则,该规则的“类型”为“包含” ,其“表达式”为city, state。
以下动图显示了前述步骤。
图 3. 显示如何为字段添加三个规则的动图
其他选项
正在编辑
您可以“编辑”已创建的任何组、类别或文档类型的名称。这可以通过选择三个配置级别中的其中一个级别,然后编辑“名称”字段来完成。
正在删除
您也可以删除组、类别和文档类型。有两个可用选项:
- Select Delete
, at the parent element of the object you want to delete. - Select Delete
while selecting the object you want to delete.
在这两种情况下,系统都会显示弹出窗口,要求您确认删除操作。选择“删除”以批准该操作。
自定义和辅助功能
热键和颜色会自动分配给新创建的字段。您可以使用它们来提高可见性并更快地浏览分类。通过单击热键或颜色代码字段来自定义它们。
带有颜色和热键的自定义字段可以指示验证站点和模板管理器在显示字段时使用指定的颜色,并将指定的热键用作为字段提供值的快捷方式。有关如何使用字段快捷方式为字段分配值的更多信息,请参阅“验证站点”页面。
要为字段分配颜色和热键,请选择该字段,在“颜色”字段中选择特定的颜色代码,然后从“热键”菜单中选择特定的热键。
您可以使用键盘快捷键浏览分类管理器。选择“显示可用的键盘快捷方式” ,然后激活“切换键盘快捷方式”选项,以避免意外触发键盘快捷方式。也可以折叠节点。
您在分类管理器中所做的更改将自动保存到特定于项目的 taxonomy.json 文件中。