- 基本情報
- フレームワーク コンポーネント
- AI Center での Document Understanding
- パイプライン
- ML パッケージ
- データ マネージャー (Data Manager)
- OCR サービス
- ライセンス
- 参照
正規表現ベースの抽出器
正規表現ベースの抽出器は、特定のフィールドに対し、データが常に厳密で予測可能な形式およびコンテキストで見つかる単純なユース ケースには最適なツールです。言い換えれば、一致した場合に常に良好な正規表現を定義できるフィールドがある場合、正規表現ベースの抽出器はよい選択肢です。
このアクティビティには、この方法でデータ抽出の対象にするフィールドに正規表現を定義するための設定ウィザードが付属しています。
このアクティビティは、単純フィールドと表フィールドの両方の抽出をサポートしています。
予期される値のコンテキストと形式がさまざまである場合は、他の抽出方法を調べることをお勧めします。そのような場合は、フォーム抽出器やマシン ラーニング抽出器の方が適している可能性があります。
この抽出器には学習 (トレーニング) 機能がなく、事前の設定が必要です。
正規表現ベースの抽出器には、考慮すべき主要な設定が 2 つあります。
- 正規表現を設定ウィザード - 特定のフィールドの正規表現を定義できます。また、このウィザードにより、正規表現の構築をサポートする正規表現エディター ウィザードも使用可能になります。
- 視覚的配置を使用設定 - 抽出器に設定された正規表現を、デジタル化コンポーネントのテキスト出力に適用するか、またはテキスト行が視覚的に整理され、単語が視覚的な配置に基づいて行内で並べ替えられるテキスト バージョンに適用するかを制御できます。
正規表現を設定ウィザードを使用して、簡易フィールドとテーブル フィールドの両方のデータをキャプチャするために使用する正規表現を定義できます。
- CultureInvariant - 言語的文化の違いが無視されることを指定します。
- ECMAScript - 式で ECMA スクリプト準拠の動作を可能にします。この値は、IgnoreCase オプションと Multiline オプションと組み合わせて使用できます。
- ExplicitCapture - 唯一の有効なキャプチャが明示的に名前または番号がつけられ、
(?<name> subexpression)
のように定義されているグループのものであることを指定します。名前のない括弧は無視されます。 - IgnoreCase - 検索では大文字と小文字を区別しないことを指定します。
- IgnorePatternWhitespace - 定義されたパターンからエスケープされていない空白を削除し、
#
とマークされたコメントを有効化します。このオプションは、文字クラス、数値量指定子、または個々の正規表現言語要素の開始をマークするトークンには適用されません。 - Singleline - 検索を単一行で開始することを指定します。ドット
(.)
は、例外\n
を含むすべての文字に一致します。 - Multiline - 検索が複数行で開始されることを指定します。このオプションの場合、特殊文字
^
および$
は、任意の行の先頭と末尾に一致します。 - RightToLeft - 検索が右から左に行われることを指定します。
注: 正規表現のオプションの詳細については、こちらをご覧ください。
- [編集] ボタンをクリックして、そのフィールドのオプションと正規表現の形式を編集します。
- 正規表現を適用しようとするテキストに対して、選択した検索基準をテストするために、[テスト用テキスト] フィールドにテキストを追加します。
- ドロップダウン リストから正規表現の式の種類のいずれかを選択します。これにより、次の特性のいずれかに一致するように正規表現式が設定されます。
- Literal - 指定した文字と完全に一致します。このオプションでは大文字と小文字が区別されます。
- Digit - 数字に一致します。
- One of - セット内の単一の文字に一致します。
- Not one of - セットに存在しない 1 文字に一致します。
- Anything -
\n
を除く任意の文字に一致します。 - Any word character - 任意の文字と数字に一致します。
- Whitespace - 1 つの空白に一致します。
- Starts with - 行の先頭の検索を開始します。
- Ends with - 行の末尾の検索を開始します。
- Advanced - カスタム式が必要です。
- Email - メール アドレスと一致します。
- URL - URL に一致します。
- US date - 米国の日付形式と一致します。
- US phone number - 米国の電話番号の形式と一致します。
注: .NET での正規表現の詳細については、こちらをご覧ください。
- 正規表現の値を書き込むには、[Value] フィールドを使用します。
- [量指定子] ドロップダウン リストから数指定子を選択します。
1
に設定されています。
Any (0 or more) - 直前の要素と 0 回以上一致しますが、可能な限り少ない回数にします。
At least one (1 or more) - 直前の要素に 1 回以上一致します。
Zero or one - 直前の要素と 0 回または 1 回一致しますが、できるだけ少ない回数にします。
x
回と y
回の間でそれ以前の要素に一致します。x
と y
は整数で、できるだけ少ない回数です。
- 追加の正規表現フィールドを追加するには、 ボタンを使用します。 および ボタンを使用すると、階層内でフィールドを上下に移動します。フィールドを削除するには、 ボタンを使用します。
- 特定のフィールドを抽出する場合は、[キャプチャ] オプションのチェック ボックスをオンにします。
- [Full Expression] フィールドは、式全体がどのようにカスタマイズされたかを表示します。
- [正規表現オプション] ドロップダウン リストから 1 つまたは複数のオプションを選択します。
- すべての構成が完了したら [保存] ボタンをクリックして編集モードを終了し、再び [保存] をクリックしてウィザードを閉じます。