
非结构化复杂文档用户指南
管理分类
本节介绍如何管理字段组、字段和字段类型,以及如何添加提示说明。
提示指令概述
- 总体提取指令 - 提供与整个分类相关的模型上下文,包括整体提取任务和项目文档的详细信息。
- 为模型提供有关如何成功从文档中提取数据的上下文。迭代说明有助于改进预测结果。
管理字段组
您可以从以下位置管理字段组:
- “管理分类”页面。
- “验证预测”页面的“批注”窗格。
通过“管理分类”
直接在内联表格中管理字段组。这样,您就可以在保存编辑之前创建、编辑、移动或删除多个项目。所有更改在保存时立即应用,并作为单个项目版本更新保存,而不是针对每次单独更改生成一个新版本。
创建和配置字段组
要从管理分类页面创建和配置字段组,请按照以下步骤继续:
- 在字段和字段组选项卡下,在总体提取说明字段中输入您的说明。
备注:
项目级别说明可以包含行业或文档类型的说明,或特定于文档的注意事项(例如,某个文件在一个文件中多次出现)。
- 选择字段组,然后填写内联表格中的以下必填字段:
备注:
创建字段组后,您只能在其各自的字段组中添加单个字段。
- 名称- 使用自然语言为您的字段组命名。
- 说明- 使用自然语言为您的字段组提供说明。
- 在“新字段组”下,选择“添加” ,以添加“新字段”或“新字段组” 。“新字段组”选项在创建的父字段组下创建一个子字段组。
备注:
有关添加新字段的更多详细信息,请参阅创建和配置字段。
要在字段组之间定义层次结构,请创建父字段组,然后在其中添加一个或多个子字段组。此结构会在它们之间建立关系,这意味着如果父字段组未返回任何预测,则子字段组也将不会返回任何预测。父字段组实质上作为主分类,其子字段组则提供更多详细信息层级。
父字段组的说明不会影响子字段组。
-
完成所有更改后,请选择保存。更改会批量保存和应用。

您可以在批注流程中的任何时间,直接在验证预测页面中添加和配置其他字段组、字段和字段类型。
字段组及其层次结构的示例
下面的示例显示字段组及其层次结构:
- 发票
- 发票编号
- 发票 > 行项目
- 单位价格
- 数量
- 明细金额
如果模型在文档中找不到任何“发票”字段组,即该文档不是发票,则不会返回任何“发票” >“行项目”。
编辑字段组
您可以直接在内联表格中编辑字段组,如下所示:
- 在管理分类页面中的字段和字段组选项卡下,选择字段组的名称或说明。
- 进行修改。
- 选择“保存”。
移动字段组
要移动字段组,请按以下步骤继续:
-
在管理分类页面中的字段和字段组选项卡下,选择要移动的字段组的省略号按钮。
-
选择移动。

-
在出现的移动字段组窗口中,选择下拉列表。
-
为您的字段组选择新的父级。
备注:大于号
>用于定义字段组层次结构。此符号在父字段组和子字段组之间建立了关系。
-
如果字段组是子字段组,您还可以从下拉列表中选择无,将其变成父字段组。
-
选择移动字段组。
-
选择“保存”。
删除字段组
要删除字段组,请按以下步骤继续:
- 在管理分类页面中的字段和字段组选项卡下,选择要删除的字段组的省略号按钮。
- 选择“删除”。
- 在出现的确认删除窗口中,选择删除。
重要提示:
删除字段组将导致其注释丢失。只能通过还原到之前已发布的模型版本来撤销此操作。发布最新的模型版本,然后再进行重大更改。
从批注窗格中
创建和配置字段组
要从验证预测页面中的批注窗格中创建和配置字段组,请按照以下步骤操作:
-
在批注窗格中,选择添加字段组。

-
选择新字段组。
-
在添加字段组侧面板中,填写以下字段:
- 字段组名称- 使用自然语言为您的字段组命名。
- 说明- 使用自然语言为您的字段组提供说明。
-
选择添加,将变为当前名称
-
在编辑字段组侧面板中,您可以编辑所创建的字段组,并使用新字段按钮,并添加新字段。
编辑字段组
要编辑字段组,请按以下步骤继续:
-
在批注窗格中,将鼠标悬停在您的字段组上,然后选择省略号按钮。
-
选择编辑字段组。
-
在显示的侧面板中,在字段组详细信息下,您可以编辑说明,以及编辑和删除字段。
-
执行修改后选择保存。

排除字段组
如要模型排除某个字段组,请按以下步骤继续:
- 在批注窗格中,将鼠标悬停在您的字段组上,然后选择省略号按钮。
- 选择排除字段组。此操作会使字段组显示为带删除线的样式。
- 要还原更改,请从同一字段组的省略号中选择还原字段组排除。
管理字段
您可以从以下位置管理字段:
- “管理分类”页面。
- “验证预测”页面的“批注”窗格。
通过“管理分类”
直接在内联表格中管理字段。这样,您就可以在保存编辑之前创建、编辑、移动或删除多个项目。所有更改将立即应用,并作为单个项目版本更新保存,而不是针对每次单独更改生成一个新版本。
创建和配置字段
要从管理分类页面中创建和配置字段,请按照以下步骤继续:
-
在字段和字段组选项卡下,展开您要添加字段的字段组。
-
选择“添加”。
-
选择 “新建字段”, 以创建单个字段。
-
在内联表格中,按如下所示填写并配置所需的详细信息:
- 名称- 为您的字段提供一个准确描述其所表示数据的名称。
- 说明- 为您的字段提供相关的详细说明,以便为提取提供必要的上下文。
- 字段类型- 每个字段必须分配一个字段类型,该类型可以是预配置或自定义字段类型之一。使用字段类型下拉菜单,然后选择一个预配置选项: “日期” 、 “精确文本” 、 “推断文本” 、 “货币数量” 、 “数字”或“布尔值” 。
备注:如果您想创建自定义字段类型,请从下拉列表中选择“ 新建字段类型 ”选项。有关更多详细信息,请查看 “创建和配置字段类型”。
- 您可以在不同字段重复使用字段类型,从而共享指令。
- 您可以在创建字段后更改字段类型。但是,更改字段类型将导致所有现有标注都丢失。
- 文本字段类型可包含两种输入值:按文档中实际存在状态原样提取的文本 (精确文本),或通过文档内容推断得出的文本 (推断文本)。
- “数据类型” - 系统会根据您选择的字段类型自动填充此字段。
-
选择“保存”。

编辑字段
您可以直接在内联表格中编辑字段,如下所示:
- 在管理分类页面中的字段和字段组选项卡下,展开字段所在的字段组。
- 选择字段名称、说明或字段类型。
- 进行修改。
- 选择“保存”。
移动字段
要将您的字段移动到它们所属的同一字段组中,请按照以下步骤操作:
- 在管理分类页面中的字段和字段组选项卡下,将鼠标悬停在您的字段上。
- 使用拖动把手将您的字段移动到其所属字段组中的任何位置。
- 对新的排列感到满意后,请选择保存。
要将您的字段移动到其他字段组,请按照以下步骤继续:
- 选择要移动的字段的省略号按钮。
- 选择复制字段定义,这将复制整个字段及其详细信息。
- 接下来,选择要将复制字段粘贴到的字段组。
- 选择字段组后,在出现的窗口中选择粘贴。
或者,要将所有字段从一个字段组移动到另一个字段组,请执行之前所述的相同步骤,但务必选择要移动的字段所在字段组的省略号按钮。
删除字段
要删除字段,请按以下步骤继续:
- 在管理分类页面中的字段和字段组选项卡下,选择要删除的字段的省略号按钮。
- 选择“删除”。
- 在出现的确认删除窗口中,选择删除。
重要提示:
删除字段将导致其注释丢失。只能通过还原到之前已发布的模型版本来撤销此操作。发布最新的模型版本,然后再进行重大更改。
从批注窗格中
创建和配置字段
要从验证预测页面中的批注窗格中创建和配置字段,请按照以下步骤操作:
-
在批注窗格中,将鼠标悬停在您的字段组上,然后选择省略号按钮。
-
选择编辑字段组。

-
在出现的侧面板中,选择新字段,然后填写必填字段:
-
名称- 为您的字段命名。
-
“字段类型” - 从下拉列表中选择一个预配置选项: “日期” 、 “精确文本” 、 “推断文本” 、 “货币数量” 、 “数字”或“布尔值” 。
备注:- 您可以在不同字段重复使用字段类型,从而共享指令。
- 您可以在创建字段后更改字段类型。但是,更改字段类型将导致所有现有标注都丢失。
- 文本字段类型可包含两种输入值:按文档中实际存在状态原样提取的文本 (精确文本),或通过文档内容推断得出的文本 (推断文本)。
如果您想创建自定义字段类型,请从下拉列表中选择“ 新建字段类型 ”选项。有关更多详细信息,请查看 “创建和配置字段类型”。
- 说明- 描述要从文档中提取的内容以及如何提取详细信息。

-
-
选择“保存”。
您还可以从同一“编辑字段组”侧面板编辑字段。
删除字段
要从批注窗格中删除字段,请按照以下步骤操作:
-
在批注窗格中,将鼠标悬停在您的字段组上,然后选择省略号按钮。
-
选择编辑字段组。
-
在出现的侧面板中,选择要删除的字段的省略号。
-
选择“删除”。
-
在出现的确认删除窗口中,选择删除。
备注:删除字段将导致丢失其训练数据。只能通过还原到之前已固定的模型版本来撤销此操作。固定最新的模型版本,然后再进行重大更改。

管理字段类型
创建和配置字段类型
要创建和配置新的字段类型,请执行以下步骤:
-
在“管理分类”页面中的“字段类型”选项卡中选择“新建字段类型”。

-
填写必填字段:
-
名称 - 字段类型的名称。
-
指令 - 应包含通用指令,说明数据的标准格式及提取方式,以供所有同类型字段统一使用。
备注:- 您可以在不同字段重复使用字段类型,从而共享指令。
- The Instruction field guides how values are extracted. For data types with pre-trained models - Date, Number, and Monetary Quantity - the output format is fixed and cannot be changed through this field.
-
-
使用“数据类型” 下拉列表选择以下值之一:
-
String :可以包含任何字符,例如字母、数字等。它还可以具有文档中显式存在或从文档中推断出的输入值。例如,组织名称、名字、地址行或电话号码。
- 选择以下之一作为“输入”值:
- 必须存在于文档中: 必须按照其在文档中显示的完全相同方式提取值。
- Inferred from the document: the extracted value can be inferred from context and does not need to exactly match the text within the document. You can use the instruction field to normalize the output into a specific format, for example phone numbers as
+1 (XXX) XXX-XXXX.
- 选择以下之一作为“输入”值:
-
日期:提供不同的非结构化格式,并使用 UiPath 预训练的日期字段。例如,开始日期、到期日期。
-
“数字” : 具有各不相同的非结构化格式,并且使用 UiPath 预配置的字段类型以标准化格式构建值。例如,项目数量、百分比变化、十进制值。
-
货币数量(货币数量) :采用各不相同的非结构化格式,并使用 UiPath 预训练货币数量模型。例如,总保费、应付费用。
-
布尔值: 从文档中推断出的 True 或 False 值。例如,对于现有客户,可以设置为 False,对于不存在的客户,可以设置为 False。
-
选项:映射到一组预定义值的推断值或精确值。例如:
- 语言:英语、德语、法语。
- 文档类型:水费账单、燃气费账单、能源费账单。
- 产品类别:投资账户、储蓄账户、活期账户。
- 客户类型:第 1 层、第 2 层、第 3 层。选择“选项”作为数据类型后,系统将显示以下选项:
- 显示值
- 替代值
- 添加选项您可以输入值,也可以选择性地添加证据批注。在可能的情况下,值将映射到一组给定值。
重要提示:数据类型一经配置,便无法更改。确保选择正确的数据类型,否则,您必须删除字段类型并使用正确的数据类型重新创建。这是因为您无法为具有不同数据类型的不兼容字段类型重新映射注释。
-
-
选择“保存”。

推断字段与确切字段示例
推断字段
我在一家保险公司的承保运营团队工作,我们提供给客户的保单类别包括汽车、家用、健康、奢侈品等,每个类别都对应一个类型类别,例如 A、B、C 等。
根据文档的内容,我希望能够提取和识别需要处理的策略的“类型”类别。
在本例中,消息中没有任何位置明确指令此电子邮件属于 E 类型。在指令中,为每个保险类型提供了上下文,为模型预测提供依据。例如,与奢侈品相关的索赔都属于 E 类型类别。
可能需要设置为“推断”的字段示例:
- 文档中任何位置都没有出现,但在其上下文中隐含的值
- 需要跨文档的不同区域连接的值。
- 跨多个段落、行或列的值。
确切字段
为了完成此请求,我可能需要现有策略编号、名称和申请的值。我知道这些值需要在文档中明确指令并提取到下游流程中。
图 1. 推断字段与确切字段示例
