Document Understanding ガイド

デリバリー:

最終更新日時 2025年2月4日

正規表現ベースの抽出器

正規表現ベースの抽出器とは

正規表現ベースの抽出器は、特定のフィールドに対し、データが常に厳密で予測可能な形式およびコンテキストで見つかる単純なユースケースには最適なツールです。言い換えれば、一致した場合に常に良好な正規表現を定義できるフィールドがある場合、正規表現ベースの抽出器はよい選択肢です。

このアクティビティには、この方法でデータ抽出の対象にするフィールドに正規表現を定義するための設定ウィザードが付属しています。

このアクティビティは、単純フィールドと表フィールドの両方の抽出をサポートしています。

予期される値のコンテキストと形式がさまざまである場合は、他の抽出方法を調べることをお勧めします。そのような場合は、フォーム抽出器やマシンラーニング抽出器の方が適している可能性があります。

この抽出器には学習 (トレーニング) 機能がなく、事前の設定が必要です。

特別な要件

正規表現ベースの抽出器を使用するための特別な要件はありません。

設定方法

アクティビティの設定

正規表現ベースの抽出器には、考慮すべき主要な設定が 2 つあります。

正規表現を設定ウィザード - 特定のフィールドの正規表現を定義できます。また、このウィザードにより、正規表現の構築をサポートする正規表現エディターウィザードも使用可能になります。
視覚的配置を使用設定 - 抽出器に設定された正規表現を、デジタル化コンポーネントのテキスト出力に適用するか、またはテキスト行が視覚的に整理され、単語が視覚的な配置に基づいて行内で並べ替えられるテキストバージョンに適用するかを制御できます。

[正規表現を設定] ウィザード

正規表現を設定ウィザードを使用して、簡易フィールドとテーブルフィールドの両方のデータをキャプチャするために使用する正規表現を定義できます。

[データ抽出スコープ] アクティビティ内のワークフローに [正規表現ベースの抽出器] アクティビティを追加します。
[式を設定] ボタンをクリックして正規表現を構成します。
- [ウィザード] ウィンドウが開きます。
定義されたすべてのフィールドを表示し、正規表現の設定を開始するには、ドキュメントの種類のエントリを展開します。ドキュメントの種類と対応するフィールドが、プロジェクトのタクソノミーから自動的に読み取られます。タクソノミーのすべてのフィールドで、正規表現設定オプションを使用できます。
- 単一の通常のフィールドを示す、展開されたドキュメントの種類
- テーブルの設定オプションを示す、展開されたドキュメントの種類とテーブルフィールド
  
  簡易フィールドの場合、フィールドの横にある [編集] オプションをクリックすると開かれる正規表現ウィザードを使用して、1 つの正規表現のみ定義できます。
  
  テーブルフィールドの場合、使用できる設定とオプションがいくつかあります。
- 表の値の正規表現を使用すると、表領域全体をキャプチャできます。表のフィールド行に値を追加しないと、以降の表処理では、ドキュメントのテキストコンテンツ全体が考慮されます。
- 行の値の正規表現を使用すると、特定の表のキャプチャから行全体をキャプチャできます。行のフィールド行に値を追加しないと、行末で表領域が分割されます。以降は、キャプチャされる各値が、列抽出が適用される行と見なされます。
- [列の値の正規表現] を使用すると、キャプチャした各行から特定の列の値をキャプチャできます。
  表、行、列の正規表現を使用するシナリオ
- [表の正規表現] と [行の正規表現] のフィールドを空のままにすると、ドキュメントのテキストバージョンのすべての行が、セルの値の識別のための [列レベルの正規表現] の適用に使用されます。
- 表領域をキャプチャするために正規表現を定義したものの、[行の正規表現] は空のままにした場合、表キャプチャ内のすべての行が、個別に各 [列の正規表現] を使用して処理され、セルの値がキャプチャされます。
- [表の正規表現] を空のままにしたものの、[行の正規表現] を定義した場合、[行の正規表現] でキャプチャされたすべてのテキストが使用され、[列の正規表現] が適用されて、各行のセル値がキャプチャされます。
- [表の正規表現] と [行の正規表現] の両方に入力した場合、アクティビティは [表の正規表現] を適用して表の文字列を識別したうえで、[行の正規表現] を適用して各行を識別し、さらに [列レベルの正規表現] によってセルの値をキャプチャします。
[式] フィールドに正規表現を追加します。
注: [式] フィールドで全体の正規表現を記述するか、[編集] ボタンを使って構築する化を選択できます。

重要: 定義した正規表現には、1 つ以上のキャプチャグループが必要です。表現のキャプチャされた部分のみが、値の報告に使用されます。
[正規表現オプション] 列のドロップダウンリストをクリックします。この複数選択オプションから、正規表現オプションを設定できます。
選択できるオプションは複数あります。
- CultureInvariant - 言語的文化の違いが無視されることを指定します。
- ECMAScript - 式で ECMA スクリプト準拠の動作を可能にします。この値は、IgnoreCase オプションと Multiline オプションと組み合わせて使用できます。
- ExplicitCapture - 唯一の有効なキャプチャが明示的に名前または番号がつけられ、(?<name> subexpression) のように定義されているグループのものであることを指定します。名前のない括弧は無視されます。
- IgnoreCase - 検索では大文字と小文字を区別しないことを指定します。
- IgnorePatternWhitespace - 定義されたパターンからエスケープされていない空白を削除し、# とマークされたコメントを有効化します。このオプションは、文字クラス、数値量指定子、または個々の正規表現言語要素の開始をマークするトークンには適用されません。
- Singleline - 検索を単一行で開始することを指定します。ドット (.) は、例外 \n を含むすべての文字に一致します。
- Multiline - 検索が複数行で開始されることを指定します。このオプションの場合、特殊文字 ^ および $ は、任意の行の先頭と末尾に一致します。
- RightToLeft - 検索が右から左に行われることを指定します。
  注: 正規表現のオプションの詳細については、こちらをご覧ください。

正規表現エディターウィザード

[編集] ボタンをクリックして、そのフィールドのオプションと正規表現の形式を編集します。
正規表現を適用しようとするテキストに対して、選択した検索基準をテストするために、[テスト用テキスト] フィールドにテキストを追加します。
ドロップダウンリストから正規表現の式の種類のいずれかを選択します。これにより、次の特性のいずれかに一致するように正規表現式が設定されます。
- Literal - 指定した文字と完全に一致します。このオプションでは大文字と小文字が区別されます。
- Digit - 数字に一致します。
- One of - セット内の単一の文字に一致します。
- Not one of - セットに存在しない 1 文字に一致します。
- Anything - \n を除く任意の文字に一致します。
- Any word character - 任意の文字と数字に一致します。
- Whitespace - 1 つの空白に一致します。
- Starts with - 行の先頭の検索を開始します。
- Ends with - 行の末尾の検索を開始します。
- Advanced - カスタム式が必要です。
- Email - メールアドレスと一致します。
- URL - URL に一致します。
- US date - 米国の日付形式と一致します。
- US phone number - 米国の電話番号の形式と一致します。
  
  注: .NET での正規表現の詳細については、こちらをご覧ください。
正規表現の値を書き込むには、[Value] フィールドを使用します。
[量指定子] ドロップダウンリストから数指定子を選択します。
- Exactly - 直前の要素に指定された回数だけ一致します。既定では 1 に設定されています。
- Any (0 or more) - 直前の要素と 0 回以上一致しますが、可能な限り少ない回数にします。
- At least one (1 or more) - 直前の要素に 1 回以上一致します。
- Zero or one - 直前の要素と 0 回または 1 回一致しますが、できるだけ少ない回数にします。
- Between x and y times - x 回と y 回の間でそれ以前の要素に一致します。x と y は整数で、できるだけ少ない回数です。
追加の正規表現フィールドを追加するには、ボタンを使用します。およびボタンを使用すると、階層内でフィールドを上下に移動します。フィールドを削除するには、ボタンを使用します。
特定のフィールドを抽出する場合は、[キャプチャ] オプションのチェックボックスをオンにします。
[Full Expression] フィールドは、式全体がどのようにカスタマイズされたかを表示します。
[正規表現オプション] ドロップダウンリストから 1 つまたは複数のオプションを選択します。
すべての構成が完了したら [保存] ボタンをクリックして編集モードを終了し、再び [保存] をクリックしてウィザードを閉じます。