- 基本情報
- 管理
- ソースとデータセットを管理する
- モデルのトレーニングと保守
- 生成 AI による抽出
- 分析と監視の使用
- オートメーションと Communications Mining
- よくある質問など
![](https://docs.uipath.com/_next/static/media/grid.05ebd128.png?w=3840&q=100)
カスタム正規表現の一般フィールドを構築する
必要な権限: 「データセットの更新」
カスタム正規表現の一般フィールドを使用すると、ID やリファレンス番号など、繰り返し構造がわかっているテキストの範囲を抽出して書式設定できます。
このオプションは、バリエーションがほとんどないシンプルで構造化された一般フィールドには便利ですが、大きなバリエーションがあり、コンテキストが予測に大きな影響を与えるようなフィールドには、マシン ラーニング ベースの一般フィールドが最適な選択肢です。 この 2 つを組み合わせて Communications Mining 内の任意のデータセットで使用できます。
より広範な正規表現 (つまり、 [全般] フィールドを定義する一連のルール) は、カスタムの一般フィールドのベースとしても使用できます。 この機能により 、ルールと、Communications Mining 内でのトレーニングによるコンテキストに応じたマシン ラーニング ベースの絞り込みが組み合わされ 、高度なカスタム一般フィールドが作成されます。 これにより、最適なパフォーマンスと、自動化のために抽出される値に必要な制限が提供されます。
カスタム正規表現の一般フィールドは、1 つ以上のカスタム正規表現テンプレートで構成されます。 各テンプレートは、一般フィールドを抽出 (および書式設定) する 1 つの方法を表します。
これらのテンプレートを組み合わせることで、同じ一般的なフィールド タイプの複数の表現をカバーする柔軟で強力な方法が提供されます。
テンプレートは、次の 2 つの部分で構成されます。
- 正規表現 (正規表現) は、一般的なフィールドとして抽出されるテキストの範囲が満たす必要がある制約を記述します。
- 書式設定。抽出した文字列を正規化して、より標準的な書式にする方法を表します。
たとえば、顧客 ID が、「ID」という単語とその後に続く 7 桁の数字、または 9 文字の英数字の文字列である場合、2 つのテンプレートは次のようになります。
ID\
d{}
」を入力すると、次のように表示されます。
カスタム正規表現テンプレートをテキストでテストして、期待どおりに動作することを確認できます。 テンプレートで抽出される一般的なフィールドは、その値、および開始文字と終了文字の位置とともにリストに表示されます。
\d{4}
」で [書式設定] が「ID-{$}
」の場合、次のテスト文字列では抽出結果が 1 つ表示されます。
正規表現は、テキスト内の一般的なフィールドを抽出するために使用されるパターンです。 構文のドキュメントについては、ここを参照してください。
名前付きキャプチャ グループを使用すると、抽出された文字列の特定のセクションを識別し、その後、書式を設定できます。キャプチャ グループの名前は、すべてのテンプレートで一意である必要があり、小文字または数字のみを使用する必要があります。
抽出した [全般] フィールドを後処理するための書式設定を提供できます。
既定では、書式設定は適用されません。プラットフォームから返される文字列は、正規表現で抽出した文字列になります。ただし、必要に応じて、次のルールを使用してより複雑な変換を定義できます。
$
を付けることで、書式設定ロジックで変数として利用できます。$
記号そのものは、正規表現の完全一致を表すことに注意してください。
{
と }
で囲む必要があります。
ID-
を付けて返す場合、正規表現と書式設定は次のようになります。
My identification number is 1234567
、1つの一般的なフィールドが返されます ID-1234567
&
記号で連結できます。
正規表現 | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
通貨の書式 | {$id1 & "-" & $id2} |
テキスト | 最初の ID は 123 で、2 番目の ID は 4567 です |
プラットフォームによって返される全般フィールド | 123-4567 |
抽出された範囲にある単語の最初の文字を大文字にし、それ以降の文字を小文字にします。
正規表現 | \w+\s\w+ |
通貨の書式 | {proper($)} |
テキスト | albert EINSTEIN |
プラットフォームによって返される全般フィールド | Albert Einstein |
抽出された範囲を、指定したサイズまで、指定した文字でパディングします。
関数の引数:
- パディングする文字を含むテキスト
- パディングする文字列のサイズ
- パディングに使用する文字
正規表現 | \d{2,5} |
通貨の書式 | {pad($, 5, "0")} |
テキスト | 123 |
プラットフォームによって返される全般フィールド | 00123 |
文字を他の文字に置き換えます。
関数の引数:
- 置換する文字を含むテキスト
- 置き換える文字
- 古い文字を置き換えるのに使用する文字
正規表現 | ab |
通貨の書式 | {substitute($, "a", "12")} |
テキスト | ab |
プラットフォームによって返される全般フィールド | 12b |
範囲の最初の n 文字を返します。
関数の引数:
- 抽出する文字を含むテキスト
- 返す文字の数
正規表現 | \w{4} |
通貨の書式 | {left($, 2)} |
テキスト | ABCD |
プラットフォームによって返される全般フィールド | AB |
範囲の最初の n 文字を返します。
関数の引数:
- 抽出する文字を含むテキスト
- 返す文字の数
正規表現 | \w{4} |
通貨の書式 | {right($, 2)} |
テキスト | ABCD |
プラットフォームによって返される全般フィールド | CD |