活动
最新
False
横幅背景图像
Document Understanding 活动
上次更新日期 2024 年 4 月 10 日

基于正则表达式的提取程序

UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor

用于创建和使用自定义的基于正则表达式的提取程序来从文档中提取信息。此活动只能与“数据提取范围”活动一起使用。

属性

注意: 此活动不适用于 setboolean 字段。
常见
  • “显示名称”- 活动的显示名称。
输入
  • 配置 ” - 将提取程序的配置值指定为 JSON 转义字符串。 使用提取程序向导生成配置。 您可以将“ 属性 ”面板中的配置保留为字符串,也可以使用向导进行定义,并将其绑定到变量。 建议使用向导而不是“ 属性 ”面板来编辑“配置”字段。
  • 超时 ” - 指定任何正则表达式搜索的超时值,以毫秒为单位。 0超时或负数超时被解释为无限期。 默认值为 2000
  • “使用视觉对齐”- 选中后,系统会对基于视觉字词对齐生成的文本版本应用正则表达式(视觉字词对齐文本中包含由单个空格字符分隔的字词、由单个换行符分隔的行以及由两个换行符分隔的页。)默认值为“False”。该选项可用于复杂的布局,方便用户根据文字在行上的视觉组织方式来编写正则表达式,而忽略文档中标识出的其他任何句子、段落或布局组。
其他
  • “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。

使用配置正则表达式向导

  1. 在“数据提取作用域”活动中,向工作流添加“基于正则表达式的提取程序”活动。
  2. 单击“配置表达式”按钮,配置正则表达式。

    • 系统将打开“向导”窗口。



  3. 展开文档类型条目,以查看所有已定义的字段,并开始配置您的正则表达式。系统会自动从项目的分类中读取文档类型及其相应字段。“正则表达式”配置选项可用于分类中的每个字段。

    • 展开的文档类型,显示单个常规字段:



    • 展开的文档类型和表格字段,显示表格的配置选项:



      对于简单字段,只能使用正则表达式向导定义单个正则表达式。当您单击该字段旁边的“编辑”选项时,该向导随即打开。

      对于表格字段,可使用多种设置和选项进行配置:

    • 表格值正则表达式”可用于捕获整个表格区域。如果在“表格”字段行中未添加任何值,则系统会将文档的整个文本内容视为表格进行后续处理。
    • “行值正则表达式”可用于捕获给定表格捕获中的整个行。如果“行”字段行中未添加任何值,则按行尾分隔表格区域。从此刻开始,系统会将每个捕获的值视为要应用列提取的行。
    • 列值正则表达式”可用于从每个捕获的行中捕获特定列的值。

      使用表格、行和列正则表达式的场景

    • 如果您将“表格正则表达式”和“行正则表达式”字段留空,则文档文本版本中的所有行都将用于应用“列级别正则表达式”来标识单元格值。
    • 如果您定义了一个正则表达式来捕获表格区域,但将“行正则表达式”留空,则使用每个“列正则表达式”单独处理表格中的所有行,以捕获单元格值。
    • 如果您将“表格正则表达式”留空,但定义了“行正则表达式”,则使用“行正则表达式”捕获的所有文本,并应用“列正则表达式”捕获每一行的单元格值。
    • 如果您同时填写“表格”和“行正则表达式”,则该活动将应用“表格正则表达式”来标识表格字符串,然后应用“行正则表达式”来标识每一行,再应用“列级别正则表达式”来捕获单元格值。
  4. 在“表达式”字段中添加您的正则表达式。

    注意:您可以选择在“表达式”字段中写入整个正则表达式,也可以使用“编辑”按钮构建它。
    重要提示:对于您定义的任何正则表达式,请确保至少有一个捕获组!报告值时仅使用表达式中已捕获的部分。
  5. 单击“正则表达式选项”列中的下拉列表。您可以在该多选选项中设置“正则表达式选项”。



  6. 有多个选项可供您选择:

    • “CultureInvariant”- 指定忽略语言文化差异。
    • “ECMAScript”- 为表达式启用符合 ECMA 脚本的行为。此值只能与“忽略大小写”和“多行”选项一起使用。
    • “显式捕获”- 指定唯一有效的捕获是显式命名或编号并定义为 (?<name> subexpression) 的组。任何未命名的括号都将被忽略。
    • “忽略大小写”- 指定搜索不区分大小写。
    • “忽略模式空白”- 从定义的模式中消除未转义的空格,并启用标有 # 的注释。此选项不适用于标记单个正则表达式语言元素开头的字符类、数字量词或令牌。
    • “单行”- 指定在单行中启动搜索。点 (.) 匹配所有字符,包括异常 \n
    • “多行”- 指定在多行中启动搜索。对于此选项,特殊字符 ^$ 可匹配任何行的开头和结尾。
    • “从右到左”- 指定从右到左执行搜索。

      注意:有关正则表达式选项的更多信息,请参见此处

正则表达式编辑器向导

  1. 单击“编辑”按钮以编辑该字段的选项和正则表达式的格式。



  2. 在“测试文本”字段中添加文本,以根据要应用正则表达式的文本测试您选择的搜索条件。



  3. 从下拉列表中选择一种正则表达式类型。这将设置正则表达式以匹配以下特征之一:

    • “文字”- 匹配您指定的确切字符。此选项区分大小写。
    • “数字”- 匹配数字。
    • “其中之一”- 匹配集合中存在的单个字符。
    • “非其中之一”- 匹配集合中不存在的单个字符。
    • “任何内容”- 匹配除 \n 以外的任何字符。
    • “任何单词字符”- 匹配任何字母和数字。
    • “空格”- 匹配一个空格。
    • “开头为”- 从行开始的位置开始搜索。
    • “结尾为”- 在行尾处开始搜索。
    • “高级”- 需要自定义表达式。
    • “电子邮件”- 匹配电子邮件地址。
    • “URL”- 匹配 URL。
    • “美国日期”- 匹配美国日期格式。
    • “美国电话号码”- 匹配美国电话号码格式。



      注意:有关 .NET 中正则表达式的更多信息,请参见此处
  4. 使用“值”字段以写入正则表达式的值。
  5. 从“量词”下拉列表中选择一个量词。

    • “精确”- 精确匹配前面指定的元素次数。默认情况下,它设置为 1
    • “任何(0 次或更多)”- 匹配前面的元素零次或多次,但次数越少越好。
    • “至少一次(1 次或更多)”- 匹配前面的元素一次或多次。
    • “零次或一次”- 匹配前面的元素零次或一次,但次数越少越好。
    • “在 x 次和 y 次之间”- 匹配前面的元素的次数为 x 次和 y 次之间,其中 xy 是整数,但次数越少越好。
  6. 使用 docs image 按钮添加额外的正则表达式字段。使用 docs imagedocs image 按钮在层次结构中上下移动字段。使用 docs image 按钮删除字段。
  7. 如果要提取该特定字段,请选中“捕获”选项的复选框。
  8. “完整表达式”字段会准确显示您自定义的整个表达式。
  9. 从“正则表达式选项”下拉列表中选择一个或多个选项。



  10. 完成所有配置后,单击“保存”按钮以退出“编辑”模式,然后再次单击“保存”以关闭向导。
Document Understanding 集成

基于正则表达式的提取程序活动是 Document Understanding 解决方案的一部分。

  • 属性
  • 使用配置正则表达式向导
  • 正则表达式编辑器向导

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.