activities
latest
false
- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
新发布内容的本地化可能需要 1-2 周的时间才能完成。
Document Understanding 活动
上次更新日期 2024年12月5日
基于正则表达式的提取程序
UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor
设计器面板
配置表达式 - 打开“配置正则表达式”向导。
属性面板
常见
- “显示名称”- 活动的显示名称。
输入
- “配置 ” - 将提取程序的配置值指定为
JSON
转义字符串。 使用提取程序向导生成配置。 您可以将“ 属性 ”面板中的配置保留为字符串,也可以使用向导进行定义,并将其绑定到变量。 建议使用向导而不是“ 属性 ”面板来编辑“配置”字段。 - “超时 ” - 指定任何正则表达式搜索的超时值,以毫秒为单位。
0
超时或负数超时被解释为无限期。 默认值为2000
。 - “使用视觉对齐”- 选中后,系统会对基于视觉字词对齐生成的文本版本应用正则表达式(视觉字词对齐文本中包含由单个空格字符分隔的字词、由单个换行符分隔的行以及由两个换行符分隔的页。)默认值为“False”。该选项可用于复杂的布局,方便用户根据文字在行上的视觉组织方式来编写正则表达式,而忽略文档中标识出的其他任何句子、段落或布局组。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
- 在“数据提取作用域”活动中,向工作流添加“基于正则表达式的提取程序”活动。
- 选择“配置表达式”,配置正则表达式。
系统将打开“向导”窗口。
图 1.“配置正则表达式”向导概览
- 展开文档类型条目,以查看所有已定义的字段,并开始配置您的正则表达式。系统会自动从项目的分类中读取文档类型及其相应字段。“正则表达式”配置选项可用于分类中的每个字段。检查您可能会在向导中遇到的以下配置选项:
- 您可以选择一种文档类型,在展开该文档类型时,系统会显示单个常规字段。
对于简单字段,只能使用“配置正则表达式”向导定义单个正则表达式。当您选择该字段旁边的“编辑”时,该向导会打开。
图 2.“配置正则表达式”向导中定义的常规字段的文档类型
- 您可以使用一种文档类型,在展开该文档类型时,系统会显示一个表格字段,其中显示表格的配置选项,例如适用于整个表格内容的“表达式”,或适用于各个行的“表达式”。
查看以下列表,了解可用于表格字段配置的多个设置和选项:
- “表格值正则表达式”可用于捕获整个表格区域。如果在“表格”字段行中未添加任何值,则系统会将文档的整个文本内容视为进行后续表格处理。
- “行值正则表达式”可用于捕获给定表格捕获中的整个行。如果“行”字段行中未添加任何值,则按行尾分隔表格区域。从此刻开始,系统会将每个捕获的值视为要应用的列提取的行。
- “列值正则表达式”可用于从每个捕获的行中捕获特定列的值。
图 3.“配置正则表达式”向导中定义的表格字段的文档类型
使用表格、行和列正则表达式的场景
查看以下可能发生的场景,以使用可用的表格正则表达式选项:- 如果您将“表格正则表达式”和“行正则表达式”字段留空,则文档文本版本中的所有行都将用于应用“列级别正则表达式”来标识单元格值。
- 如果您定义了一个正则表达式来捕获表格区域,但将“行正则表达式”留空,则使用每个“列正则表达式”单独处理表格中的所有行,以捕获单元格值。
- 如果您将“表格正则表达式”留空,但定义了“行正则表达式”,则使用“行正则表达式”捕获的所有文本,并应用“列正则表达式”捕获每一行的单元格值。
- 如果您同时填写“表格”和“行正则表达式”,则该活动将应用“表格正则表达式”来标识表格字符串,然后应用“行正则表达式”来标识每一行,再应用“列级别正则表达式”来捕获单元格值。
- 您可以选择一种文档类型,在展开该文档类型时,系统会显示单个常规字段。
- 在“表达式”字段中添加您的正则表达式。
您可以选择在“表达式”字段中写入整个正则表达式,也可以使用“编辑”选项构建它。
重要提示:对于您定义的任何正则表达式,请确保至少有一个捕获组。报告值时仅使用表达式中已捕获的部分。 - 选择“正则表达式选项”列中的下拉列表。您可以在该多选选项中设置“正则表达式选项”。
您可以从以下选项中进行选择:
- “CultureInvariant”- 指定忽略语言文化差异。
- ECMAScript - 为表达式启用 ECMA(欧洲计算机制造商协会)脚本合规行为。此值只能与“忽略大小写”和“多行”选项一起使用。
- 显式捕获 - 指定唯一有效的捕获是经过显式命名或编号的,并定义为
(?<name> subexpression)
的组。任何未命名的括号都将被忽略。 - “忽略大小写”- 指定搜索不区分大小写。
- 忽略模式空白 - 从定义的模式中消除未转义的空格,并启用标有
#
(井号)的注释。此选项不适用于标记单个正则表达式语言元素开头的字符类、数字量词或令牌。 - “单行”- 指定在单行中启动搜索。点
(.)
匹配所有字符,包括异常\n
。 - “多行”- 指定在多行中启动搜索。对于此选项,特殊字符
^
和$
可匹配任何行的开头和结尾。 - “从右到左”- 指定从右到左执行搜索。
注意:有关可以使用的正则表达式选项的更多信息,请访问正则表达式选项枚举。
图 4. 展开的“正则表达式选项”下拉列表,显示可用选项
- 选择“编辑”以编辑该字段的选项和正则表达式的格式。
系统将打开“正则表达式构建器”向导。
图 5.“正则表达式构建器”向导概览
- 在“测试文本”字段中输入所需的文本。这是您要根据您选择的搜索条件应用正则表达式的文本。之后,在正则表达式的“值”字段中插入一个值,该值也会在“测试文本”字段中高亮显示。
图 6. 在“测试文本”字段中输入文本,并使用“值”字段高亮显示其中的某个值
- 从下拉列表中选择一种正则表达式类型。这将设置正则表达式以匹配以下特征之一:
- “文字”- 匹配您指定的确切字符。此选项区分大小写。
- “数字”- 匹配数字。
- “其中之一”- 匹配集合中存在的单个字符。
- “非其中之一”- 匹配集合中不存在的单个字符。
- “任何内容”- 匹配除
\n
以外的任何字符。 - “任何单词字符”- 匹配任何字母和数字。
- “空格”- 匹配一个空格。
- “开头为”- 从行开始的位置开始搜索。
- “结尾为”- 在行尾处开始搜索。
- “高级”- 需要自定义表达式。
- “电子邮件”- 匹配电子邮件地址。
- “URL”- 匹配 URL。
- “美国日期”- 匹配美国日期格式。
- “美国电话号码”- 匹配美国电话号码格式。
图 7. 显示正则表达式可用特征的下拉列表
注意:有关 .NET 中正则表达式的更多信息,请访问 .NET 正则表达式。
- 使用“值”字段以写入正则表达式的值。
- 从“量词”下拉列表中选择一个量词。您可以从以下选项中进行选择:
- “精确”- 精确匹配前面指定的元素次数。默认情况下,它设置为
1
。 - “任何(0 次或更多)”- 匹配前面的元素零次或多次,但次数越少越好。
- “至少一次(1 次或更多)”- 匹配前面的元素一次或多次。
- “零次或一次”- 匹配前面的元素零次或一次,但次数越少越好。
- “在 x 次和 y 次之间”- 匹配前面的元素的次数为
x
次和y
次之间,其中x
和y
是整数,但次数越少越好。
- “精确”- 精确匹配前面指定的元素次数。默认情况下,它设置为
- 要编辑字段,可以使用以下选项:
- 选择“添加”,添加额外的正则表达式字段。
- 选择“上移”和“下移”,在层次结构中上下移动字段。
- 选择“删除”,以删除字段。
- 如果要提取该特定字段,请选中“捕获”选项的复选框。
- “完整表达式”字段会准确显示您自定义的整个表达式。
- 从“正则表达式选项”下拉列表中选择一个或多个选项。
图 8.“正则表达式选项”下拉列表中的可用选项
- 完成所有配置后,选择“保存”以退出“编辑”模式。
- 再次选择“保存”以关闭向导。