AI Computer Vision ガイド

デリバリー:

最終更新日時 2025年12月19日

はじめに

AI Computer Vision はマシンラーニングに基づいたメソッドです。コンピューター画面上のすべての UI 要素を視覚的に識別し、UiPath Robot を介してこれらの UI 要素を操作することで、人間の操作を模倣します。アプリケーションの基になるプロパティは必要なく、使用されることもありません。必要なのは、さまざまな画面要素の特徴と関係のみです。

AI Computer Vision では、セレクターを利用するのではなく、AI (オブジェクト検出、OCR、テキストのあいまい一致、アイコンの画像マッチング) とアンカーシステムを使用してすべてを関連付けます。より正確に言えば、画面上の要素を視覚的に特定するために、要素検出 (マシンラーニングサーバー上) とテキスト (OCR) 検出を実行し、この 2 つを組み合わせて UI を完全に理解します。その後、この 2 つの方法で検出した要素間の関係をマルチアンカー記述子にエンコードし、この記述子によってターゲット要素を一意に識別します。

AI Computer Vision は、UI Automation アクティビティパッケージに含まれる一連のアクティビティと、自動化対象の UI を実際に分析するために必要な AI モデルをホストするサーバー (クラウド、オンプレミス、またはローカル) で構成されます。既定では UiPath のクラウドサーバーが使用されます。このサーバーの使用は、すべての AI Computer Vision アクティビティと UI Automation アクティビティに推奨されています。クラウドの AI Computer Vision は、デプロイの種類に関係なく使用できます。たとえば、オンプレミスの Orchestrator またはクラウドの Orchestrator のどちらを使用していても、特別な設定を行う必要なくクラウドの Computer Vision を実行できます。

または、独自のオンプレミスの AI Computer Vision サーバーをホストおよび管理し、それを使用して AI Computer Vision アクティビティを実行できます。この種類のサーバーを使用する場合、独自のハードウェアインフラストラクチャ (GPU) またはクラウド環境が必要です。さらに、独自の環境をローカルにデプロイ、更新、管理する必要があります。UiPath クラウドサーバーと比較した場合、AI モデルのアップグレード時に後方互換性の問題が発生する可能性もあります。この種類の問題を回避する方法について詳しくは、「モデルの更新に対する回復性」をご覧ください。

ローカルサーバーを利用することもできます。ローカルの CPU で動作し、最も移植性の高いバージョンです。ただし、動作速度は遅くなり、検出精度がやや低下します。

主なメリット

以下に、AI Computer Vision の便利な機能をいくつか示します。

セレクターを超えた自動化 - ロボットが、より多くの画面上のフィールドやコンポーネント (Flash、Silverlight、PDF、画像を含む) を認識して操作できるようにします。
VDI とデスクトップでの信頼性 - 失敗しやすい画像自動化技術やデスクトップ上のセレクターベースのターゲット設定に伴う問題を軽減します。Citrix、VWware、または Microsoft のリモートデスクトップ内でオートメーションを作成します。
幅広い種類のインターフェイス - デスクトップと Web アプリケーション用の VDI 環境 (Citrix、VMWare、Microsoft RDP、VNC など) が含まれます。UI 要素が自動的に識別されオブジェクトリポジトリに追加されるため、作業時間を短縮できます。
インテリジェントで直感的な機能 - 画面上のウィザードで、画面上の選択に関する詳細、検証、および通知を表示します。レコーダーを使用して、視覚ベースの完全なオートメーションを簡単に生成できます。
実行時の自動スクロールのサポート - AI Computer Vision アクティビティを使用して、Web ページやアプリのスクロール可能なコンテンツの操作を簡単に自動化できます。
クロスプラットフォーム機能 - リモートデスクトップを介して、Windows、Linux、Android およびその他のオペレーティングシステムの操作を自動化します。
VDI と非 VDI 間のオートメーション - 必要な変更作業を減らし、VDI からデスクトップへの自動化を簡略化します。
複数のデプロイオプション - SaaS を介してデプロイしたり、オンプレミスの Linux や Windows、またはお使いのデスクトップから利用したりできます。
動的な UI 要素 - 表、ドロップダウンリスト、チェックボックスの要素を含むオートメーションの作成を可能にします。これにより、オートメーションの回復性が向上し、UI の小さな変更に対応してこれらの動的な要素を操作できます。
統合ターゲットの一部として UI Automation で利用可能 - セレクターと AI Computer Vision の記述子の両方が必要な場合に、UI ベースのオートメーションを構築しやすくします。