- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 数据与安全性
- 许可

Document Understanding 用户指南
分类管理器可用于创建和编辑特定于当前自动化项目的分类文件。该分类文件包含由用户定义并按“组”和“类别”分类的文档类型。
您可以使用“加载分类”活动将分类文件转换为 .NET 数据类型,然后将其作为输入传递给以下活动:
只有在安装 v1.6.0 或更高版的 UiPath.IntelligentOCR.Activities 包作为项目依赖项后,才能访问分类管理器。包安装完成后,“向导”部分的功能区中会显示“分类管理器”按钮。
“分类管理器”窗口用于创建按组和类别组织的文档类型。首次在项目中打开“分类管理器”时,系统不会定义任何组、类别或文档类型。
第一步是创建组或文档类型。两者之间的区别在于,组涉及层次结构,而文档类型可以创建为单个文件。复杂的项目意味着创建组、类别和文档类型,而简单的项目只能要求创建一种或两种文档类型。
创建组
创建组时,要为在组内创建的文档类型也创建类别。这可以通过点击“组”按钮来完成。选择组名称后,可以使用“保存”按钮或使用 Enter 键来保存该名称。
创建类别
定义并选择组后,您可以使用其定义的按钮在组内创建“类别”和/或“文档类型”。选择“保存”或使用 Enter 键以保存配置。
创建文档类型
“文档类型”可以作为组的一部分或单个文档进行创建。在组内创建时,请确保选中该组,然后选择“文档类型” 。
如果将“文档类型”创建为单个文件,请确保未选择任何组,然后选择“文档类型” 。选择“文档类型”后,输入文件的名称,然后选择“保存” 。
您可通过选择已创建的“文档类型”来更改其名称、将其唯一 ID 复制到剪贴板或将其重新分配给另一个组或类别。您还可以输入文档类型的代码。
Group.Category.Document 类型的结构,可以复制到剪贴板。 文档类型 ID 代码是一项可选功能,可用于查找文档或将文档映射到您在分类中定义的文档类型。
配置文档类型的显示设置
- OCR 可信度阈值:在文档类型级别设置最低可信度阈值。
当在验证站点中显示文档时,字段的OCR 置信度和提取置信度级别必须高于您在分类管理器中配置的阈值。
OCR 可信度阈值的默认值为 90%。
- 日期显示格式:针对文档类型显示的日期格式。
默认值为
YYYY-MM-DD。 - 数字小数分隔符:要用于文档类型的数字小数分隔符。
- 千位数分隔符:要用于文档类型的千位数分隔符。
创建字段
选择“文档类型”后, “字段”按钮将可用以创建新字段。选择字段按钮后,您可以为字段输入名称,然后从下拉列表中选择其类型。
“字段”类别有两个选项卡: “详细信息”和“规则” 。详细信息选项卡提供有关所选字段的信息,例如字段名称、分配的热键或字段类型,而规则选项卡则允许您创建字段的提取结果需要满足的规则。
提供以下字段类型:
- 文本
- 数字
- 日期 - 选择此类型后,便可指定预期格式(可选)。
备注:
如果要添加预期格式,请使用符合 MSDN (Microsoft Developer Network) 的格式。
This format may be used by extractors and is used by the Data Extraction Scope activity when trying to parse a Date into its constituent Day, Month, and Year parts.
- 名称
- Address
- 设置 - 选择此类型后,即可从预先建立的列表中向字段添加多个值。
- 布尔值
- 表格 - 选择此类型后,便可编辑表格结构,其中包括添加列及编辑列名称和类型。
详细信息选项卡
创建新字段后,选中该字段以查看更多信息。默认情况下,当您打开字段时,系统将显示“详细信息”选项卡,您可以在其中修改字段的名称、颜色或热键。您还可以指定它是否为多值(“是多值”),或者是否允许处理文档中没有证据的值(“需要参考”)。多值选项允许一个字段具有多个值,但不限于特定列表。
- 为多值:如果某个字段设置为多值,则可以为该特定字段报告多个值。例如,您想要提取一个“总监列表”,其中的条目数量不定。想象一下像单列表格这样的多值字段。
- 需要引用:当需要引用字段时,仅当您从验证站点中看到的文档中选择某些内容时,才可以为其添加值。对于要捕获可能在文档中不可见的值的特殊字段,您可以将“需要引用”切换到“关闭”。这样一来,用户即可添加值,而无需在文档中指定该值的来源位置。
您还可从下拉列表中选择字段的“类型”,或添加“默认值”。使用“默认值”字段定义要在“提取结果”中填充的值,以防文档中标识的字段没有值。
验证设置
在“验证设置”下,您可以选择设置“提取可信度”阈值。在“验证站点”中验证字段时会考虑此阈值。要设置提取的可信度阈值,请转到“提取可信度阈值” ,然后输入一个 0 到 100 之间的值。
- “只读” :如果启用,人工验证者可以将“ 验证站点 ” 中“ 提取 结果” 字段上设置的任何验证人备注视为消息。如果禁用(默认状态),则人工验证者还可以在“验证站点”中编辑该注释,从而将有关所做决策的信息传达回机器人。
- 文本:如果选择“文本”,则验证程序注释将在“验证站点” 中显示为文本消息(启用编辑时为可编辑文本)。 人工验证者可以在 “验证站点” 中查看、编辑或添加最多 200 个字符的消息。
- 选项:如果选择选项,则可以配置一系列单选按钮,人工验证者可以查看这些单选按钮,如果不是只读模式,则可以在“验证站点” 中进行选择。 您最多可以添加 10 个选项。
GetFieldValidatorNotes(<fieldId>) and SetFieldValidatorNotes(<fieldId>, <validatorNote>).
可以使用旁边显示的“删除”按钮删除已创建的字段,也可以使用拖放功能对其进行重新排序。
也可以通过选择“删除”,从“详细信息”窗口中删除字段。
重复以上步骤即可创建多个组、类别和文档类型,您后续还可使用“搜索”字段对其进行筛选。
规则选项卡
字段规则可帮助您优化提取结果,并在运行工作流时自动对其进行验证。它们的作用是提高提取效率,并通过高亮显示来帮助您轻松验证需要在验证站点中注意的字段。您可以创建适用于一个字段的多个规则。
您可以通过设置 评估者类型 和 严重性级别来定义规则。
评估者类型
使用“评估程序类型” 指定应如何评估已定义的规则。 您可以选择两种赋值器类型: AND和 OR。
|
评估者类型 |
描述 |
示例 |
|---|---|---|
|
AND |
当需要执行所有规则时,请使用此赋值器类型。 |
规则 :发票编号以 A 开头,以 X 结尾。
|
|
或 |
只需执行其中一个规则。 |
规则 : 发票编号以 A 开头,或为 123。
|
严重性级别
指示为字段定义的所有规则的重要性。 如果在验证站点会话中违反规则,则无法设置 MUST 级别。 您可以从两个关键性级别中选择:“ 必须”、“ 应该”。
识别出设置的严重性级别后,将触发创建的规则。
当您要提交规则时,“ 必须 ”规则要求 100% 成功,否则“ 提交 ”操作将失败。 “ 应该 ”规则允许您 提交 ,即使该规则已被破坏。
You can always check if a rule is broken by using the helper method from the ExtractionResult Class class, that resides in the UiPath.DocumentProcessing.Contracts activity package.
|
描述 | |
|---|---|
|
MUST |
当创建的规则必须包含在“提取结果”流程中时,请使用此严重性级别。 |
|
SHOULD |
当创建的规则是可选的时,请使用此严重性级别。 |
选择“ 评估者类型 ” 和“ 严重性级别” 后,您必须设置适用于新创建规则的类型。 您可以选择多个选项。 以下是所有可用列表的完整列表:
- 不为空
- 可能的值
- 开头为
- 结尾为
- 包含
- 定长
- 是电子邮件
- 正则表达式注意:您为其创建了规则的字段类型决定了规则类型的数量,您可以从中选择规则类型。例如,“文本”类型字段显示所有可能的规则类型,而“日期”类型字段仅显示两种规则类型,即“非空”和“可能”值。
规则类型
| 描述 | 字段类型 | 严重性级别 | 评估者类型 | |
|---|---|---|---|---|
| 不为空 | 提取的值不能为空,这意味着该字段为必填字段。 如果缺少该值,则需要验证/手动输入。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
| 可能的值 | 用户定义所有可能的值,提取的数据是创建规则时作为输入添加的值之一(例如,员工类型为“全职”、“兼职”或“实习生”)。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
| 表达式 | 定义用作提取数据规则的数学表达式。 | 适用于数字类型字段。
配置规则时,条件为必填项。 选择以下选项之一:
必须提供数学表达式。使用预定义的运算符来定义表达式。查看以下示例:
|
MUST SHOULD | AND
或 |
| 开头为 | 这是一个固定规则,这意味着提取的值需要以用户添加的其中一个值开头。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
| 结尾为 | 这是一个固定规则,意味着提取的值需要以用户添加的其中一个值结尾。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
| 包含 | 这是一个固定规则,表示提取的值需要包含用户添加的其中一个值。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
| 定长 | 这是一个固定规则,意味着提取的值需要具有一定的固定长度。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
| 是电子邮件 | 这是一个固定规则,表示提取的值需要以电子邮件格式写入。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
| 正则表达式 | 这是一个固定规则,意味着提取的值需要包含与用户添加的其中一个值相似的正则表达式。 | 适用于以下类型的字段:
|
MUST SHOULD | AND
或 |
使用规则
- 在“分类”面板中选择一个字段。
- 转到“规则”选项卡。
- 选择“新增”,以添加新规则。
- 输入
full address规则,该规则的“类型”为“包含”,其“表达式”为st, str, street。 - 选择“评估程序类型”。
在此示例中,选择“或”。
- 选择“严重性级别”。
在此示例中,选择“必须”。
- 选择“新增”。
- 输入
phone number规则,该规则的“类型”为“非空”。 - 选择“新增”。
- 输入
city or state规则,该规则的“类型”为“包含”,其“表达式”为city, state。
以下动图显示了前述步骤。
其他选项
正在编辑
您可以“编辑”已创建的任何组、类别或文档类型的名称。这可以通过选择三个配置级别中的其中一个级别,然后编辑“名称”字段来完成。
正在删除
您也可以删除组、类别和文档类型。有两个可用选项:
- 选择“删除”
,在要删除的对象的父元素中。
- 选择“删除”
,同时选择要删除的对象。
在这两种情况下,系统都会显示弹出窗口,要求您确认删除操作。选择“删除”以批准该操作。
自定义和辅助功能
热键和颜色会自动分配给新创建的字段。您可以使用它们来提高可见性并更快地浏览分类。通过单击热键或颜色代码字段来自定义它们。
A customized field with color and hotkey can instruct the Validation Station and the Template Manager to use the assigned color when displaying the field and to use the assigned hotkey as a shortcut for providing values to fields. See the Validation Station page for more information about how to use the field shortcuts to assign values to a field.
要为字段分配颜色和热键,请选择该字段,在“颜色”字段中选择特定的颜色代码,然后从“热键”菜单中选择特定的热键。
您可以使用键盘快捷键浏览分类管理器。选择“显示可用的键盘快捷方式”,然后激活“切换键盘快捷方式”选项,以避免意外触发键盘快捷方式。也可以折叠节点。
taxonomy.json 文件中。