Document Understanding アクティビティ

最終更新日時 2025年5月15日

正規表現ベースの抽出器

UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor

説明

カスタムの正規表現を作成して使用し、ドキュメントから情報を抽出できます。このアクティビティは、[データ抽出スコープ] アクティビティと組み合わせた場合にのみ使用できます。

注: このアクティビティは、set または booleanフィールドでは機能しません。

プロジェクトの対応 OS

Windows - レガシ | Windows

構成

デザイナーパネル

式を設定 - 正規表現を設定ウィザードが開きます。

プロパティパネル

共通

表示名 - アクティビティの表示名です。

入力

構成 - 抽出器の構成値を JSON エスケープ文字列として指定します。抽出器ウィザードを使用して構成を生成します。構成を文字列として [プロパティ] パネルに保持するか、ウィザードを使用して定義して変数にバインドできます。[プロパティ] パネルではなく、ウィザードを使用して [構成] フィールドを編集することをお勧めします。
タイムアウト - 正規表現検索のタイムアウト値をミリ秒単位で指定します。0 または負のタイムアウトは、無限として解釈されます既定値は 2000 です。
視覚的配置を使用 - 選択すると、単語の視覚的配置に基づき生成されるテキストバージョンに正規表現が適用されます。単語の視覚的配置のテキストは、単一のスペース文字で区切られた単語、単一の改行文字で区切られた行、2 つの改行文字で区切られたページを含みます。既定値は False です。このオプションは、単語の視覚的配置に基づいて正規表現を書く方が簡単に情報を抽出できる、複雑なレイアウトに使用できます。このオプションを使用する場合、ドキュメント内で識別される文、段落、レイアウトグループは無視されます。

その他

プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。

[正規表現を設定] ウィザードを使用する

[データ抽出スコープ] アクティビティ内のワークフローに [正規表現ベースの抽出器] アクティビティを追加します。
[式を設定] を選択して正規表現を構成します。
[ウィザード] ウィンドウが開きます。

図 1. [正規表現を設定] ウィザードの概要
定義されたすべてのフィールドを表示し、正規表現の設定を開始するには、ドキュメントの種類のエントリを展開します。ドキュメントの種類と対応するフィールドが、プロジェクトのタクソノミーから自動的に読み取られます。タクソノミーのすべてのフィールドで、正規表現設定オプションを使用できます。以下で、ウィザードに表示される設定オプションを確認できます。
- ドキュメントの種類を設定できます。展開すると、標準フィールドが 1 つ表示されます。
  簡易フィールドの場合、フィールドの横にある [編集] オプションを選択すると開かれる正規表現を設定ウィザードを使用して、1 つの正規表現のみ定義できます。
  
  図 2. 標準フィールドが定義された正規表現を設定ウィザードのドキュメントの種類
- ドキュメントの種類を指定できます。展開すると、表フィールドが表示され、表の設定オプションが表示されます。表の内容全体に対する式や、個々の行に対する式があります。
  表フィールドの設定で使用できるいくつかの設定とオプションについては、次のリストをご覧ください。
  - 表の値の正規表現を使用すると、表領域全体をキャプチャできます。表のフィールド行に値を追加しないと、以降の表処理では、ドキュメントのテキストコンテンツ全体が考慮されます。
  - 行の値の正規表現を使用すると、特定の表のキャプチャから行全体をキャプチャできます。行のフィールド行に値を追加しないと、行末で表領域が分割されます。以降は、キャプチャされる各値が、列抽出が適用される行と見なされます。
  - [列の値の正規表現] を使用すると、キャプチャした各行から特定の列の値をキャプチャできます。
  図 3.表フィールドが定義された [正規表現を設定] ウィザードのドキュメントの種類
  
  表、行、列の正規表現を使用するシナリオ
  表で利用可能な正規表現オプションを使用する場合、考えられる以下のシナリオを確認してください。
  - [表の正規表現] と [行の正規表現] のフィールドを空のままにすると、ドキュメントのテキストバージョンのすべての行が、セルの値の識別のための [列レベルの正規表現] の適用に使用されます。
  - 表領域をキャプチャするために正規表現を定義したものの、[行の正規表現] は空のままにした場合、表キャプチャ内のすべての行が、個別に各 [列の正規表現] を使用して処理され、セルの値がキャプチャされます。
  - [表の正規表現] を空のままにしたものの、[行の正規表現] を定義した場合、[行の正規表現] でキャプチャされたすべてのテキストが使用され、[列の正規表現] が適用されて、各行のセル値がキャプチャされます。
  - [表の正規表現] と [行の正規表現] の両方に入力した場合、アクティビティは [表の正規表現] を適用して表の文字列を識別したうえで、[行の正規表現] を適用して各行を識別し、さらに [列レベルの正規表現] によってセルの値をキャプチャします。
[式] フィールドに正規表現を追加します。
[式] フィールドで全体の正規表現を記述するか、[編集] オプションを使って構築する化を選択できます。

重要: 定義した正規表現には、1 つ以上のキャプチャグループが必要です。表現のキャプチャされた部分のみが、値の報告に使用されます。
[正規表現オプション] 列のドロップダウンリストを選択します。この複数選択オプションから、さまざまな正規表現オプションを設定できます。
以下のオプションから選択できます。
- CultureInvariant - 言語的文化の違いが無視されることを指定します。
- ECMAScript - 式で ECMA (欧州電子計算機工業会) スクリプト準拠の動作を可能にします。この値は、IgnoreCase オプションと Multiline オプションと組み合わせて使用できます。
- ExplicitCapture - 唯一の有効なキャプチャが明示的に名前または番号がつけられ、(?<name> subexpression) のように定義されているグループのものであることを指定します。名前のない括弧は無視されます。
- IgnoreCase - 検索では大文字と小文字を区別しないことを指定します。
- IgnorePatternWhitespace - 定義されたパターンからエスケープされていない空白を削除し、# (ハッシュタグ) とマークされたコメントを有効化します。このオプションは、文字クラス、数値量指定子、または個々の正規表現言語要素の開始をマークするトークンには適用されません。
- Singleline - 検索を単一行で開始することを指定します。ドット (.) は、例外 \n を含むすべての文字に一致します。
- Multiline - 検索が複数行で開始されることを指定します。このオプションの場合、特殊文字 ^ および $ は、任意の行の先頭と末尾に一致します。
- RightToLeft - 検索が右から左に行われることを指定します。
  注: 使用できる正規表現オプションの詳細については、「RegexOptions Enum」をご覧ください。
図 4. 利用可能なオプションが表示された、展開した [正規表現オプション] ドロップダウン

正規表現エディターウィザード

[編集] を選択して、そのフィールドのオプションと正規表現の形式を編集します。
正規表現ビルダー ウィザードが開きます。

図 5. 正規表現ビルダー ウィザードの概要
[テスト用テキスト] フィールドに目的のテキストを入力します。これは、選択した検索条件に基づいて正規表現を適用する対象のテキストです。その後、正規表現の [値] フィールドに値を挿入すると、挿入した値が [テスト用テキスト] フィールドでも強調表示されます。
図 6. [テスト用テキスト] フィールドにテキストを入力し、[値] フィールドを使用して特定の値を強調表示する
ドロップダウンリストから正規表現の式の種類のいずれかを選択します。これにより、次の特性のいずれかに一致するように正規表現式が設定されます。
- Literal - 指定した文字と完全に一致します。このオプションでは大文字と小文字が区別されます。
- Digit - 数字に一致します。
- One of - セット内の単一の文字に一致します。
- Not one of - セットに存在しない 1 文字に一致します。
- Anything - \n を除く任意の文字に一致します。
- Any word character - 任意の文字と数字に一致します。
- Whitespace - 1 つの空白に一致します。
- Starts with - 行の先頭の検索を開始します。
- Ends with - 行の末尾の検索を開始します。
- Advanced - カスタム式が必要です。
- Email - メールアドレスと一致します。
- URL - URL に一致します。
- US date - 米国の日付形式と一致します。
- US phone number - 米国の電話番号の形式と一致します。
  図 7. 正規表現で利用可能な特性を示すドロップダウンリスト
  
  注: .NET の正規表現の詳細については、「.NET regular expressions」をご覧ください。
正規表現の値を書き込むには、[Value] フィールドを使用します。
[量指定子] ドロップダウンリストから数指定子を選択します。以下のオプションから選択できます。
- Exactly - 直前の要素に指定された回数だけ一致します。既定では 1 に設定されています。
- Any (0 or more) - 直前の要素と 0 回以上一致しますが、可能な限り少ない回数にします。
- At least one (1 or more) - 直前の要素に 1 回以上一致します。
- Zero or one - 直前の要素と 0 回または 1 回一致しますが、できるだけ少ない回数にします。
- Between x and y times - x 回と y 回の間でそれ以前の要素に一致します。x と y は整数で、できるだけ少ない回数です。
フィールドを編集するには、以下のオプションを使用できます。
1. 正規表現フィールドを追加するには、[追加] を選択します。
2. フィールドを階層内で上下に移動するには、[上へ移動] および [下へ移動] を選択します。
3. フィールドを削除するには、[削除] を選択します。
特定のフィールドを抽出する場合は、[キャプチャ] オプションのチェックボックスをオンにします。
[Full Expression] フィールドは、式全体がどのようにカスタマイズされたかを表示します。
[正規表現オプション] ドロップダウンリストから 1 つまたは複数のオプションを選択します。
図 8. [正規表現オプション] ドロップダウンリストで利用可能なオプション
構成がすべて完了したら、[保存] を選択して編集モードを終了します。
もう一度 [保存] を選択してウィザードを閉じます。