- リリース ノート
- Document Processing Contracts について
- プレビュー版リリース
- Box クラス
- IPersistedActivity インターフェイス
- PrettyBoxConverter クラス
- IClassifierActivity インターフェイス
- IClassifierCapabilitiesProvider インターフェイス
- ClassifierDocumentType クラス
- ClassifierResult クラス
- ClassifierCodeActivity クラス
- ClassifierNativeActivity クラス
- ClassifierAsyncCodeActivity クラス
- ClassifierDocumentTypeCapability クラス
- ExtractorAsyncCodeActivity クラス
- ExtractorCodeActivity クラス
- ExtractorDocumentType クラス
- ExtractorDocumentTypeCapabilities クラス
- ExtractorFieldCapability クラス
- ExtractorNativeActivity クラス
- ExtractorResult クラス
- ICapabilitiesProvider インターフェイス
- IExtractorActivity インターフェイス
- ExtractorPayload クラス
- DocumentActionPriority 列挙型
- DocumentActionData クラス
- DocumentActionStatus 列挙型
- DocumentActionType 列挙型
- DocumentClassificationActionData クラス
- DocumentValidationActionData クラス
- UserData クラス
- Document クラス
- DocumentSplittingResult クラス
- DomExtensions クラス
- Page クラス
- PageSection クラス
- Polygon クラス
- PolygonConverter クラス
- Metadata クラス
- WordGroup クラス
- Word クラス
- ProcessingSource 列挙型
- ResultsTableCell クラス
- ResultsTableValue クラス
- ResultsTableColumnInfo クラス
- ResultsTable クラス
- Rotation 列挙型
- SectionType 列挙型
- WordGroupType 列挙型
- IDocumentTextProjection インターフェイス
- ClassificationResult クラス
- ExtractionResult クラス
- ResultsDocument クラス
- ResultsDocumentBounds クラス
- ResultsDataPoint クラス
- ResultsValue クラス
- ResultsContentReference クラス
- ResultsValueTokens クラス
- ResultsDerivedField クラス
- ResultsDataSource 列挙型
- ResultConstants クラス
- SimpleFieldValue クラス
- TableFieldValue クラス
- DocumentGroup クラス
- DocumentTaxonomy クラス
- DocumentType クラス
- Field クラス
- FieldType 列挙型
- LanguageInfo クラス
- MetadataEntry クラス
- TextType 列挙型
- TypeField クラス
- ITrackingActivity インターフェイス
- ITrainableActivity インターフェイス
- ITrainableClassifierActivity インターフェイス
- ITrainableExtractorActivity インターフェイス
- TrainableClassifierAsyncCodeActivity クラス
- TrainableClassifierCodeActivity クラス
- TrainableClassifierNativeActivity クラス
- TrainableExtractorAsyncCodeActivity クラス
- TrainableExtractorCodeActivity クラス
- TrainableExtractorNativeActivity クラス
- リリース ノート
- OCR コントラクトについて
- プロジェクトの対応 OS
- IOCRActivity インターフェイス
- OCRAsyncCodeActivity クラス
- OCRCodeActivity クラス
- OCRNativeActivity クラス
- Character クラス
- OCRResult クラス
- Word クラス
- FontStyles 列挙型
- OCRRotation 列挙型
- OCRCapabilities クラス
- OCRScrapeBase クラス
- OCRScrapeFactory クラス
- ScrapeControlBase クラス
- ScrapeEngineUsages 列挙型
- ScrapeEngineBase
- ScrapeEngineFactory クラス
- ScrapeEngineProvider クラス
正規表現ベースの抽出器
UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor
カスタムの正規表現を作成して使用し、ドキュメントから情報を抽出できます。このアクティビティは、[データ抽出スコープ] アクティビティと組み合わせた場合にのみ使用できます。
プロパティ
set
または boolean
フィールドでは機能しません。
共通
- 表示名 - アクティビティの表示名です。
入力
- 構成 - 抽出器の構成値を
JSON
エスケープ文字列として指定します。抽出器ウィザードを使用して構成を生成します。構成を文字列として [プロパティ] パネルに保持するか、ウィザードを使用して定義して変数にバインドできます。[プロパティ] パネルではなく、ウィザードを使用して [構成] フィールドを編集することをお勧めします。 - タイムアウト - 正規表現検索のタイムアウト値をミリ秒単位で指定します。
0
または負のタイムアウトは、無限として解釈されます既定値は2000
です。 - 視覚的配置を使用 - 選択すると、単語の視覚的配置に基づき生成されるテキスト バージョンに正規表現が適用されます。単語の視覚的配置のテキストは、単一のスペース文字で区切られた単語、単一の改行文字で区切られた行、2 つの改行文字で区切られたページを含みます。既定値は False です。このオプションは、単語の視覚的配置に基づいて正規表現を書く方が簡単に情報を抽出できる、複雑なレイアウトに使用できます。このオプションを使用する場合、ドキュメント内で識別される文、段落、レイアウト グループは無視されます。
その他
- プライベート - オンにした場合、変数および引数の値が Verbose レベルでログに出力されなくなります。
正規表現を設定ウィザードを使用する
- [データ抽出スコープ] アクティビティ内のワークフローに [正規表現ベースの抽出器] アクティビティを追加します。
-
[式を設定] ボタンをクリックして正規表現を構成します。
-
[ウィザード] ウィンドウが開きます。
-
-
定義されたすべてのフィールドを表示し、正規表現の設定を開始するには、ドキュメントの種類のエントリを展開します。ドキュメントの種類と対応するフィールドが、プロジェクトのタクソノミーから自動的に読み取られます。タクソノミーのすべてのフィールドで、正規表現設定オプションを使用できます。
-
単一の通常のフィールドを示す、展開されたドキュメントの種類
-
テーブルの設定オプションを示す、展開されたドキュメントの種類とテーブル フィールド
簡易フィールドの場合、フィールドの横にある [編集] オプションをクリックすると開かれる正規表現ウィザードを使用して、1 つの正規表現のみ定義できます。
テーブル フィールドの場合、使用できる設定とオプションがいくつかあります。
- [表の値の正規表現] を使用すると、表領域全体をキャプチャできます。[表] のフィールド行に値を追加しないと、以降の表処理では、ドキュメントのテキスト コンテンツ全体が考慮されます。
- [行の値の正規表現] を使用すると、特定の表のキャプチャから行全体をキャプチャできます。[行] のフィールド行に値を追加しないと、行末で表領域が分割されます。以降は、キャプチャされる各値が、列抽出が適用される行と見なされます。
-
[列の値の正規表現] を使用すると、キャプチャした各行から特定の列の値をキャプチャできます。
表、行、列の正規表現を使用するシナリオ
- [表の正規表現] と [行の正規表現] のフィールドを空のままにすると、ドキュメントのテキスト バージョンのすべての行が、セルの値の識別のための [列レベルの正規表現] の適用に使用されます。
- 表領域をキャプチャするために正規表現を定義したものの、[行の正規表現] は空のままにした場合、表キャプチャ内のすべての行が、個別に各 [列の正規表現] を使用して処理され、セルの値がキャプチャされます。
- [表の正規表現] を空のままにしたものの、[行の正規表現] を定義した場合、[行の正規表現] でキャプチャされたすべてのテキストが使用され、[列の正規表現] が適用されて、各行のセル値がキャプチャされます。
- [表の正規表現] と [行の正規表現] の両方に入力した場合、アクティビティは [表の正規表現] を適用して表の文字列を識別したうえで、[行の正規表現] を適用して各行を識別し、さらに [列レベルの正規表現] によってセルの値をキャプチャします。
-
-
[式] フィールドに正規表現を追加します。
注: [式] フィールドで全体の正規表現を記述するか、[編集] ボタンを使って構築する化を選択できます。重要: 定義した正規表現には、1 つ以上のキャプチャ グループが必要です。表現のキャプチャされた部分のみが、値の報告に使用されます。 -
[正規表現オプション] 列のドロップダウン リストをクリックします。この複数選択オプションから、正規表現オプションを設定できます。
-
選択できるオプションは複数あります。
- CultureInvariant - 言語的文化の違いが無視されることを指定します。
- ECMAScript - 式で ECMA スクリプト準拠の動作を可能にします。この値は、IgnoreCase オプションと Multiline オプションと組み合わせて使用できます。
- ExplicitCapture - 唯一の有効なキャプチャが明示的に名前または番号がつけられ、
(?<name> subexpression)
のように定義されているグループのものであることを指定します。名前のない括弧は無視されます。 - IgnoreCase - 検索では大文字と小文字を区別しないことを指定します。
- IgnorePatternWhitespace - 定義されたパターンからエスケープされていない空白を削除し、
#
とマークされたコメントを有効化します。このオプションは、文字クラス、数値量指定子、または個々の正規表現言語要素の開始をマークするトークンには適用されません。 - Singleline - 検索を単一行で開始することを指定します。ドット
(.)
は、例外\n
を含むすべての文字に一致します。 - Multiline - 検索が複数行で開始されることを指定します。このオプションの場合、特殊文字
^
および$
は、任意の行の先頭と末尾に一致します。 -
RightToLeft - 検索が右から左に行われることを指定します。
注: 正規表現のオプションの詳細については、こちらをご覧ください。
正規表現エディター ウィザード
-
[編集] ボタンをクリックして、そのフィールドのオプションと正規表現の形式を編集します。
-
正規表現を適用しようとするテキストに対して、選択した検索基準をテストするために、[テスト用テキスト] フィールドにテキストを追加します。
-
ドロップダウン リストから正規表現の式の種類のいずれかを選択しますこれにより、次の特性のいずれかに一致するように 正規表現式が設定されます。
- Literal - 指定した文字と完全に一致します。このオプションでは大文字と小文字が区別されます。
- Digit - 数字に一致します。
- One of - セット内の単一の文字に一致します。
- Not one of - セットに存在しない 1 文字に一致します。
- Anything -
\n
を除く任意の文字に一致します。 - Any word character - 任意の文字と数字に一致します。
- Whitespace - 1 つの空白に一致します。
- Starts with - 行の先頭の検索を開始します。
- Ends with - 行の末尾の検索を開始します。
- Advanced - カスタム式が必要です。
- Email - メール アドレスと一致します。
- URL - URL に一致します。
- US date - 米国の日付形式と一致します。
-
US phone number - 米国の電話番号の形式と一致します。
注: .NET での正規表現の詳細については、こちらをご覧ください。
- 正規表現の値を書き込むには、[Value] フィールドを使用します。
-
[量指定子] ドロップダウン リストから数指定子を選択します。
- Exactly - 直前の要素に指定された回数だけ一致します。既定では
1
に設定されています。 - Any (0 or more) - 直前の要素と 0 回以上一致しますが、可能な限り少ない回数にします。
- At least one (1 or more) - 直前の要素に 1 回以上一致します。
- Zero or one - 直前の要素と 0 回または 1 回一致しますが、できるだけ少ない回数にします。
- Between x and y times -
x
回とy
回の間でそれ以前の要素に一致します。x
とy
は整数で、できるだけ少ない回数です。
- Exactly - 直前の要素に指定された回数だけ一致します。既定では
- 追加の正規表現フィールドを追加するには、
ボタンを使用します。
および
ボタンを使用すると、階層内でフィールドを上下に移動します。フィールドを削除するには、
ボタンを使用します。
- 特定のフィールドを抽出する場合は、[キャプチャ] オプションのチェック ボックスをオンにします。
- [Full Expression] フィールドは、式全体がどのようにカスタマイズされたかを表示します。
-
[正規表現オプション] ドロップダウン リストから 1 つまたは複数のオプションを選択します。
- すべての構成が完了したら [保存] ボタンをクリックして編集モードを終了し、再び [保存] をクリックしてウィザードを閉じます。
Document Understanding との連携
[正規表現ベースの抽出器] アクティビティは、Document Understanding のソリューションに含まれます。詳細については、『Document Understanding ガイド』をご覧ください。