- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- OCR 服务
- 许可
- 参考

Document Understanding 用户指南
OCR 服务用于以下目的:
- 在为数据加标签时,当将文档导入到 Data Manager 时。此步骤可用的服务包括 UiPath Document OCR(免费,云或内部部署)、Google Cloud OCR(仅云)、Microsoft Read OCR(云或内部部署)和 Omnipage(仅内部部署)。
- 在运行时,从 RPA 工作流调用模型时。此步骤可用的服务是与 UiPath RPA 平台集成的所有 OCR 引擎,包括上述引擎,以及 Abbyy Finereader、Microsoft OCR(旧版)、Microsoft Project Oxford OCR 和 Tesseract。
为便于测试,您也可以直接在 AI Center(“设置”窗口)中配置 OCR,但对于生产部署不建议这样做。
UiPath Document OCR 有 3 个可用的部署选项:
- 在使用本地服务器活动包和 UiPath.OCR.Activities 包版本 3.1.0 预览版或更高版本的机器人上 - 不需要互联网访问,也不需要额外的硬件,但机器人计算机需要支持 AVX2 的 CPU。
- 这应该是您的默认选项。对于更大数量,您可以添加更多机器人。
- 在 Linux GPU 计算机上运行的独立 Docker 容器(见下文 - 建议用于每年超过一百万页的数量)- 许可/计量需要互联网访问
- 对于每年超过两百万到三百万页的大数量,这应该是您的默认选项。
- 在 Linux CPU 计算机上运行的独立 Docker 容器(见下文)- 许可/计量需要互联网访问
- 仅适用于机器人计算机在不支持 AVX2 的 CPU 上运行或无法获取 GPU 等极少数情况。
- AI Center 中的 ML 技能(请参阅 ML 包一节)(强烈建议使用 GPU)- 如果 AI Center 安装离线,则本地部署不需要互联网访问
本节详细介绍了安装 OCR 引擎的硬件要求和软件要求。
硬件要求
-
涉及的计算机:云虚拟机或本地部署的计算机或笔记本电脑
-
操作系统:Windows (Windows 10) 或 Linux (Ubuntu/CentOS/RedHat)
-
计算引擎:CPU 或 GPU
-
OCR:UiPath 文档 OCR CPU 或 UiPath 文档 OCR GPU 或 OmniPage OCR CPU
|
CPU 核心 |
RAM (GB) |
视频 RAM (GB) | 硬盘 (GB) |
---|---|---|---|---|
UiPath CPU |
8 |
8 |
50 | |
UiPath GPU |
1 |
4 |
8 |
50 |
OmniPage CPU |
1 |
2 |
Resolution settings |
软件要求
OCR 引擎的软件要求与 Data Manager 相同。
网络配置
<IP>:<port_number>
。OCR 引擎可能是本地部署 UiPath Document OCR、本地部署 Omnipage OCR、Google Cloud Vision OCR、Microsoft Read Azure 或本地部署 Microsoft Read。
<IP>:<port_number>
。OCR 选项与上述相同,不同之处在于 Omnipage 可直接作为活动包在机器人中使用。
OCR 引擎需要通过端口 443 访问 Azure 中 UiPath 托管的许可服务器。
最低试用配置或概念验证配置
如果您只想提供开箱即用的预训练模型,则可以在 Windows 10 笔记本电脑上运行 OCR 引擎。请确保 Docker Desktop 具有 8G RAM 可用。
如果要尝试以少量数据(不足 100 个文档)将自定义模型作为演示进行训练,您可以在 RAM 限制为 4GB 的环境中运行 OCR 引擎。对于此类小型用例,可能不需要用于 OCR 引擎的 GPU。
OCR 引擎是在 Docker 之上运行的容器化应用程序。不能在与内部部署 AI Center 相同的计算机上运行这些 OCR 引擎。为了在单独的计算机上运行它们,可以使用下面的先决条件安装程序命令来设置 Docker,并选择性地安装 NVidia 驱动程序。这些脚本不应在将安装 AI Center 的计算机上运行。
OCR 引擎的先决条件与 Data Manager 相同。
(可选)GPU 计算机安装
Linux
运行以下命令:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
在某些系统上必须运行此命令两次,否则可能需要重新启动系统以安装所要求的所有依赖项。
特定于 Azure:要使用 NV 系列虚拟机,您需要在执行上述命令之前安装 NVIDIA 驱动程序,或者您可以使用 Azure 的驱动程序扩展程序根据该层 GPU 模型安装必要的 NVIDIA 驱动程序。
Azure 虚拟机
如果要在 Azure 虚拟机上安装,请改用此命令:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
UiPath Document OCR(预览版)
UiPath 文档 OCR 是 UiPath 的专有 OCR 技术,支持以下拉丁语脚本语言使用的字符:英语、法语、德语、意大利语、葡萄牙语、罗马尼亚语和西班牙语。该技术能够识别其他语言的文本,但不带重音符号,例如,波兰语中的“Ł”将被识别为“L”。使用 UiPath 文档 OCR 处理的页面不计入与 Document Understanding 企业版许可证一起购买的页面配额,因此 UiPath 文档 OCR 可免费使用。
UiPath 文档 OCR 可在本地部署中作为 Docker 容器使用,也可在云中作为云服务 API 使用,网址为:https://du.uipath.com/ocr。请参阅“公共端点”页面上可用 URL 的完整说明。
OmniPage OCR
Omnipage Docker 容器仅适用于 Data Manager,用于以 UiPath Document OCR 尚不支持的语言导入文档。
运行以下命令:
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
Google Cloud OCR
可以从 Google Cloud Platform 文档中获取端点。如果您的订阅中包含 Google Cloud Vision 服务,则可以从 Google Cloud Platform 控制台获取 API 密钥。
Microsoft Read
对于 Azure 服务,您需要同时提供端点和 API 密钥。
对于内部部署容器端点,则不需要提供 API 密钥。
下表显示了如何在 Data Manager 和 AI Center 中配置 6 种受支持的 OCR 引擎类型。
ocr.method
参数对应于 AI Center 的“ML 包创建”视图中的“OCR 引擎”下拉列表。
OCR 引擎 |
ocr.method |
ocr.key |
ocr.url |
---|---|---|---|
UiPath |
UiPath |
UiPath Automation Cloud Document Understanding API 密钥 企业计划 |
|
OmniPage |
omnipage |
UiPath Automation Cloud Document Understanding API 密钥 企业计划 |
|
|
|
GCP 控制台 API 密钥 |
|
Microsoft Read 2.0 内部部署 |
Microsoft |
无 |
|
Microsoft Read 2.0 Azure |
Microsoft |
来自 Azure 门户的资源的 API 密钥 |
|
Microsoft Read 3.1 内部部署 |
Microsoft |
无 |
|
Microsoft Read 3.1 Azure |
Microsoft |
来自 Azure 门户的资源的 API 密钥 |
|