AI Computer Vision 用户指南

上次更新日期 2026年5月20日

适用平台：

简介

AI Computer Vision 是一种基于机器学习的方法，用于以视觉方式识别计算机屏幕上的所有用户界面元素，并通过 UiPath 机器人与用户界面元素进行交互，从而模拟人机交互。它不需要或不使用应用程序的基础属性，而只需要各种屏幕元素的方面和关系。

AI Computer Vision 不依赖选取器，而是使用 AI（对象检测、OCR、模糊文本匹配、图标图像匹配）和锚点系统将所有这些结合在一起。更确切地说，为了在屏幕上直观地定位元素，AI 计算机视觉会（在机器学习服务器上）执行元素检测和文本 (OCR) 检测，并将这两者结合起来，形成对用户界面的全面理解。然后，将使用这两种方法检测到的元素之间的关系编码到多锚点描述符中，该描述符唯一标识目标元素。

AI Computer Vision 由一组活动（属于用户界面自动化活动包的一部分）以及一个托管 AI 模型的服务器（可以是云服务器、本地部署服务器或本地服务器）组成，该服务器是执行对要自动化的用户界面的实际分析。默认情况下，系统使用我们的 UiPath 云服务器，我们也建议将该服务器用于所有 AI Computer Vision 和用户界面自动化活动。无论您的部署类型如何，都可以使用 AI Computer Vision 云。例如，无论您使用的是 Orchestrator On-Premises 还是 Orchestrator Cloud，您都可以运行 Computer Vision 云，而无需特殊配置。

或者，您可以托管和管理自己的本地部署 AI Computer Vision 服务器，并使用它来运行 AI Computer Vision 活动。使用这种类型的服务器时，您需要拥有自己的硬件基础架构 (GPU) 或云环境。此外，您需要在本地部署、更新和维护自己的环境。与 UiPath 云服务器相比，升级 AI 模型时，您可能还会遇到向后兼容性问题。

本地服务器是您可以选择的另一种方式。它在本地 CPU 上运行，是最可移植的版本。但是，该方法速度较慢，并且检测准确性稍低。

收益

以下是 AI Computer Vision 的一些功能，您可以从中受益：

选取器以外的自动化- 使机器人能够识别更多屏幕上的字段和组件（甚至 Flash、Silverlight、PDF 和图像）并与之交互。
可靠地运行在 VDI 和桌面上- 解决了与容易失败的映像自动化技术以及桌面上基于选取器的定位相关的问题。首先在 Citrix、VWware 或 Microsoft 的 Remote Desktop 中创建自动化。
广泛的接口类型- 包括用于桌面和网页应用程序的 VDI 环境（Citrix、VMWare、Microsoft RDP、VNC 等）。系统会为您识别用户界面元素并将其添加到对象存储库，以节省时间。
智能、直观的功能- 通过屏幕向导提供有关屏幕选择的详细信息、验证和通知。使用录制器轻松生成基于视觉的完整自动化。
支持运行时自动滚动- 使用 AI Computer Vision 活动轻松自动化网页或应用程序中的可滚动内容。
跨平台功能- 通过远程桌面在 Windows、Linux、Android 和其他操作系统上实现自动化。
VDI 和非 VDI 之间的自动化- 通过减少必要的修改，简化 VDI 到桌面的自动化。
多个部署选项- 通过 SaaS 部署；对于 Linux 和 Windows，可以在本地使用，也可以直接从桌面使用。
动态用户界面元素- 启用包含表格、下拉列表和复选框元素的自动化。这提高了自动化的弹性，使其能够适应用户界面的微小更改并与这些动态元素交互。
在用户界面自动化中提供，作为“统一目标”的一部分- 同时需要选取器和 AI Computer Vision 描述符时，降低构建基于用户界面的自动化的复杂性。

部署选项

有关我们现有 AI Computer Vision 部署选项的并行比较，请查看概述指南中的“AI Computer Vision 差异”部分。

在此页面上

收益
部署选项

此页面有帮助吗？

下一个AI Computer Vision 功能可用性

AI Computer Vision 用户指南

收益​

部署选项​

此页面有帮助吗？

收益

部署选项