Studio ガイド

最終更新日時 2025年3月24日

OCR のアクティビティ

アプリケーションによっては、通常のスクレイピングテクノロジや UI 操作の自動化テクノロジでは対応できない場合があります。OCR テクノロジを使用する Studio のアクティビティは、端末の画面全体をスキャンして、表示されている文字をすべて見つけ出します。これにより、画面に表示されている内容に基づいてオートメーションを作成し、仮想マシン環境でのオートメーションを簡素化することができます。Citrix やその他のリモートデスクトップユーティリティは、デスクトップのイメージをユーザーにストリーミングしているだけであり、通常の UI セレクターは検索ができません。そのため、こうしたユーティリティは通常は OCR ベースのアクティビティの対象となります。

注: オートメーション作成の際のベストプラクティスとして、レコーディングウィザードを使用してプロジェクトを作成し、セレクターを自動的に生成した後、ニーズに合わせてアクティビティに変更を加えることをお勧めします。

[OCR で検出したテキストをクリック] と [OCR で検出したテキスト上でホバー] は、OCR を使用して端末の画面のテキストをスキャンし、それに関連するアクションを実行します。グラフィック要素が変化しても、テキストが変化しなければ、テキスト認識を使用して作成したオートメーションは、通常はそのまま機能します。これらのアクティビティは、仮想マシン環境の基本的なアクションを自動化する上で非常に便利です。これらのアクティビティは、入力として「ターゲット」を受け取ります。ターゲットとなることができるのは、String 変数、Region 変数、UIElement 変数、またはセレクターです。セレクターは、アクションを実行する必要がある座標を示します。また、[画面上で指定] 機能を使用してターゲットを自動的に生成することもできます。この機能は、指定した領域で UI 要素の識別を試み、それらに対応するセレクターを生成します。この機能が使用できない場合は、手動での介入が必要になることがあります。

[OCR でテキストを取得] は、OCR 画面スクレイピングメソッドを使用して、指定した UI 要素から文字列とその情報を抽出します。このアクティビティは、画面スクレイピングの実行時にコンテナーと一緒に自動的に生成することもできます。既定では Google OCR エンジンが使用されますが、Abbyy または Microsoft のエンジンへの変更も容易です。こちらで説明しているように、これらの OCR エンジンにはいくつかの違いがあり、状況に応じて使い分けることができます。このアクティビティは、入力として「ターゲット」を受け取ります。ターゲットとなることができるのは、Region 変数、UiElement 変数、またはセレクターです。セレクターは、何を自動化する必要があり、どこでアクションを実行する必要があるのかを識別するのに役立ちます。また、[画面上で指定] 機能を使用してターゲットを自動的に生成することもできます。この機能は、指定した領域で UI 要素の識別を試み、それらに対応するセレクターを生成します。この機能が使用できない場合は、手動での介入が必要になることがあります。このアクティビティは、UI 要素で見つかったテキストを格納した String 変数と、見つかった単語すべての画面座標を格納した TextInfo 変数を返します。

[OCR でテキスト位置を探す] は、指定した文字列を UI 要素の中で検索し、その文字列が含まれている UIElement 変数を返します。このアクティビティは、画面上のテキストを基準として UI 要素を探すのに便利です。このアクティビティは、入力として、検索するテキストを格納した文字列および「ターゲット」を受け取ります。ターゲットとなることができるのは、Region 変数、UiElement 変数、またはセレクターです。セレクターは、何を自動化する必要があるのか、どこでアクションを実行する必要があるのかを識別するのに役立ちます。また、[画面上で指定] 機能を使用してターゲットを自動的に生成することもできます。この機能は、指定した領域で UI 要素の識別を試み、それらに対応するセレクターを生成します。この機能が使用できない場合は、手動での介入が必要になることがあります。このアクティビティは、テキストが見つかった位置を格納した UiElement 変数を返します。

[OCR でテキストの存在を確認] は、OCR テクノロジを使用して、指定した UI 要素の中にテキストが存在するかどうかをチェックし、テキストが存在する場合は True、存在しない場合は False の Boolean 変数を返します。このアクティビティはあらゆる種類のテキストベースのオートメーションで役に立ちます。これを使用して、指定した文字列が表示されているかどうかに基づいて決定を下すことができるためです。また、ループで [リトライスコープ] アクティビティの条件として使用することで、特定のアクションを実行することもできます。このアクティビティは、入力として、検索するテキストを格納した文字列および「ターゲット」を受け取ります。ターゲットとなることができるのは、Region 変数、UiElement 変数、またはセレクターです。セレクターは、何を自動化する必要があるのか、どこでアクションを実行する必要があるのかを識別するのに役立ちます。また、[画面上で指定] 機能を使用してターゲットを自動的に生成することもできます。この機能は、指定した領域で UI 要素の識別を試み、それらに対応するセレクターを生成します。この機能が使用できない場合は、手動での介入が必要になることがあります。このアクティビティは、テキストが見つかったかどうかを示す Boolean 変数を返します。

Google OCR、Google Cloud OCR、Microsoft OCR、Microsoft Cloud OCR、Abbyy Cloud OCR などの OCRエンジンは、独立したアクティビティとしても利用できます。これらのアクティビティは、異なる OCR エンジンを使用して、指定した画像から文字列とその位置を抽出します。これらのアクティビティは、他の OCR アクティビティ ([OCR で検出したテキストをクリック]、[OCR で検出したテキスト上でホバー]、[OCR でテキストを取得]、[OCR でテキスト位置を探す] など) で使用できます。これらのアクティビティは、入力として、スキャンする画像ファイルを含む Image 変数を受け取ります。出力として、抽出したテキストとその画面上の座標を含む IEnumerable<KeyValuePair<Rectangle,String>> 変数と、抽出したテキストを含む String 型変数を返します。

このページは役に立ちましたか?

前へテキストオートメーションの使用例

次へOCR 言語をインストールする

サポートとサービス

サポートを受ける

UiPath アカデミー

RPA について学ぶ - オートメーションコース

UiPath コミュニティフォーラム