AI Computer Vision 用户指南

适用平台：

上次更新日期 2024年7月25日

简介

AI Computer Vision 是一种基于机器学习的方法，用于以视觉方式识别计算机屏幕上的所有用户界面元素，并通过 UiPath 机器人与用户界面元素进行交互，从而模拟人机交互。它不需要或不使用应用程序的基础属性，而只需要各种屏幕元素的方面和关系。

AI Computer Vision 不依赖选取器，而是使用 AI（对象检测、OCR、模糊文本匹配、图标图像匹配）和锚点系统将所有这些结合在一起。更确切地说，为了在屏幕上直观地定位元素，AI 计算机视觉会（在机器学习服务器上）执行元素检测和文本 (OCR) 检测，并将这两者结合起来，形成对用户界面的全面理解。然后，将使用这两种方法检测到的元素之间的关系编码到多锚点描述符中，该描述符唯一标识目标元素。

AI Computer Vision 由一组活动组成，这些活动是“用户界面自动化”活动包的一部分，以及托管 AI 模型的服务器（可以是云、内部部署或本地），执行 AI Computer Vision 任务需要使用该模型。对要自动化的用户界面的实际分析。默认情况下，我们的 UiPath 云服务器被使用，也推荐用于所有“AI 计算机视觉”和“用户界面自动化”活动。无论部署类型如何，您都可以使用 AI Computer Vision Cloud。例如，无论您使用的是内部部署 Orchestrator 还是 Orchestrator Cloud，都可以运行 Computer Vision Cloud，而无需特殊配置。

或者，您可以托管和管理自己的本地部署 AI Computer Vision 服务器，并使用它来运行 AI Computer Vision 活动。使用这种类型的服务器时，您需要拥有自己的硬件基础架构 (GPU) 或云环境。此外，您需要在本地部署、更新和维护自己的环境。与 UiPath 云服务器相比，升级 AI 模型时，您可能还会遇到向后兼容性问题。

本地服务器是您可以选择的另一种风格。它在本地 CPU 上运行，是可移植性最好的版本。但是，它速度较慢，并且检测准确性稍低。

收益

以下是 AI Computer Vision 的一些功能，您可以从中受益：

选取器以外的自动化- 使机器人能够识别更多屏幕字段和组件并与之交互，甚至是 Flash、Silverlight、PDF 和图像。
在 VDI 和桌面上可靠- 解决了与容易失败的映像自动化技术以及桌面上基于选取器的定位相关的问题。首先在 Citrix、VWware 或 Microsoft 的远程桌面中创建自动化。
广泛的界面类型- 包括用于桌面和网页应用程序的 VDI 环境（Citrix、VMWare、Microsoft RDP、VNC 等）。让系统为您识别用户界面元素并将其添加到对象存储库中，从而节省您的时间。
智能、直观的功能- 通过屏幕向导提供有关屏幕选择的详细信息、验证和通知。使用录制器轻松生成基于视觉的完整自动化。
运行时自动滚动支持- 使用 AI Computer Vision 活动轻松自动化网页或应用程序中的可滚动内容。
跨平台功能- 通过远程桌面在 Windows、Linux、Android 和其他操作系统上实现自动化。
VDI 和非 VDI 之间的自动化 - 通过减少必要的修改来简化 VDI 到桌面的自动化。
多个部署选项- 通过 SaaS 进行部署；适用于 Linux 和 Windows 的内部部署版本，或直接从桌面使用。
动态用户界面元素- 启用包含表格、下拉列表和复选框元素的自动化。这提高了自动化的弹性，使其能够适应用户界面的微小变化并与这些动态元素进行交互。
在用户界面自动化中作为统一目标的一部分提供- 当您同时需要选取器和 AI 计算机视觉描述符时，可降低构建基于用户界面的自动化的复杂性。