Ai Computer Vision user guide
AI Computer Vision はマシン ラーニングに基づいたメソッドです。コンピューター画面上のすべての UI 要素を視覚的に識別し、UiPath Robot を介してこれらの UI 要素を操作することで、人間の操作を模倣します。アプリケーションの基になるプロパティは必要なく、使用されることもありません。必要なのは、さまざまな画面要素の特徴と関係のみです。
AI Computer Vision では、セレクターを利用するのではなく、AI (オブジェクト検出、OCR、テキストのあいまい一致、アイコンの画像マッチング) とアンカー システムを使用してすべてを関連付けます。より正確に言えば、画面上の要素を視覚的に特定するために、要素検出 (マシン ラーニング サーバー上) とテキスト (OCR) 検出を実行し、この 2 つを組み合わせて UI を完全に理解します。その後、この 2 つの方法で検出した要素間の関係をマルチアンカー記述子にエンコードし、この記述子によってターゲット要素を一意に識別します。
AI Computer Vision is composed of a set of activities, that are part of the UI Automation activity package, as well as a server (which can be cloud, on-premises, or local) hosting an AI model, which is needed to perform the actual analysis of the UI you're automating. By default, our UiPath cloud server is used and also recommended for all AI Computer Vision and UI Automation activities. You can use AI Computer Vision cloud regardless of your deployment type. For instance, it does not matter if you have Orchestrator on-premises or Orchestrator cloud, you can run Computer Vision cloud with no special configuration required.
または、独自のオンプレミスの AI Computer Vision サーバーをホストおよび管理し、それを使用して AI Computer Vision アクティビティを実行できます。この種類のサーバーを使用する場合、独自のハードウェア インフラストラクチャ (GPU) またはクラウド環境が必要です。さらに、独自の環境をローカルにデプロイ、更新、管理する必要があります。UiPath クラウド サーバーと比較した場合、AI モデルのアップグレード時に後方互換性の問題が発生する可能性もあります。
Local server is another flavour you can opt for. It runs on local CPU and it is the most portable version. However, it is slower and has a slightly lower detection accuracy.
主なメリット
以下に、AI Computer Vision の便利な機能をいくつか示します。
- Automation beyond selectors - Enable robots to recognize and interact with more on-screen fields and components - even Flash, Silverlight, PDFs, and images.
- Reliable on VDIs and desktops - Relieves issues with failure-prone image automation techniques and with selector-based targeting on desktops. Start by creating automations within Citrix, VWware or Microsoft’s Remote Desktop.
- Broad range of interface types - Includes VDI environments (Citrix, VMWare, Microsoft RDP, VNC, and others) for desktop and web applications. Save your time by getting UI elements identified and added to object repository for you.
- Intelligent, intuitive capabilities - Provides details, validation, and notifications about on-screen selections via an on-screen wizard. Uses the recorder to easily generate full vision-based automations.
- Run-time auto-scroll support - Easily automate scrollable content in webpages or apps using AI Computer Vision activities.
- Cross-platform capabilities - Automate for Windows, Linux, Android and other operating systems through remote desktops.
- Automation between VDI & non-VDI - Simplifies VDI-to-desktop automation by reducing necessary modifications.
- Multiple deployment options - Deploys via SaaS; available on-premises for Linux and Windows, or right from your desktop.
- Dynamic UI elements - Enables automations that include tables, drop-down lists, and checkbox elements. This increases the resilience of your automations, enabling them to adapt to small changes to the UI and interact with these dynamic elements.
- Available in UI Automation as part of Unified Target - Reduces the complexity of building UI-based automations when you need both selectors and AI Computer Vision descriptors.
デプロイ オプション
For a parallel comparison of our existing AI Computer Vision deployment options, check the AI Computer Vision differences section in the Overview guide.