- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- OCR 服务
- 许可
- 参考
Document Understanding 用户指南
OCR 服务
OCR 服务用于以下目的:
- 在为数据加标签时,当将文档导入到 Data Manager 时。此步骤可用的服务包括 UiPath Document OCR(免费,云或内部部署)、Google Cloud OCR(仅云)、Microsoft Read OCR(云或内部部署)和 Omnipage(仅内部部署)。
- 在运行时,从 RPA 工作流调用模型时。此步骤可用的服务是与 UiPath RPA 平台集成的所有 OCR 引擎,包括上述引擎,以及 Abbyy Finereader、Microsoft OCR(旧版)、Microsoft Project Oxford OCR 和 Tesseract。
为便于测试,您也可以直接在 AI Center(“设置”窗口)中配置 OCR,但对于生产部署不建议这样做。
UiPath Document OCR 有 3 个可用的部署选项:
- 在使用本地服务器活动包和 UiPath.OCR.Activities 包版本 3.1.0 预览版或更高版本的机器人上 - 不需要互联网访问,也不需要额外的硬件,但机器人计算机需要支持 AVX2 的 CPU。
- 这应该是您的默认选项。对于更大数量,您可以添加更多机器人。
- 在 Linux GPU 计算机上运行的独立 Docker 容器(见下文 - 建议用于每年超过一百万页的数量)- 许可/计量需要互联网访问
- 对于每年超过两百万到三百万页的大数量,这应该是您的默认选项。
- 在 Linux CPU 计算机上运行的独立 Docker 容器(见下文)- 许可/计量需要互联网访问
- 仅适用于机器人计算机在不支持 AVX2 的 CPU 上运行或无法获取 GPU 等极少数情况。
- AI Center 中的 ML 技能(请参阅 ML 包一节)(强烈建议使用 GPU)- 如果 AI Center 安装离线,则本地部署不需要互联网访问
本节详细介绍了安装 OCR 引擎的硬件要求和软件要求。
-
涉及的计算机:云虚拟机或本地部署的计算机或笔记本电脑
-
操作系统:Windows (Windows 10) 或 Linux (Ubuntu/CentOS/RedHat)
-
计算引擎:CPU 或 GPU
-
OCR:UiPath 文档 OCR CPU 或 UiPath 文档 OCR GPU 或 OmniPage OCR CPU
|
CPU 核心 |
RAM (GB) |
视频 RAM (GB) | 硬盘 (GB) |
---|---|---|---|---|
UiPath CPU |
8 |
8 |
50 | |
UiPath GPU |
1 |
4 |
8 |
50 |
OmniPage CPU |
1 |
2 |
Resolution settings |
OCR 引擎的软件要求与 Data Manager 相同。
<IP>:<port_number>
。OCR 引擎可能是本地部署 UiPath Document OCR、本地部署 Omnipage OCR、Google Cloud Vision OCR、Microsoft Read Azure 或本地部署 Microsoft Read。
<IP>:<port_number>
。OCR 选项与上述相同,不同之处在于 Omnipage 可直接作为活动包在机器人中使用。
OCR 引擎需要通过端口 443 访问 Azure 中 UiPath 托管的许可服务器。
OCR 引擎是在 Docker 之上运行的容器化应用程序。不能在与内部部署 AI Center 相同的计算机上运行这些 OCR 引擎。为了在单独的计算机上运行它们,可以使用下面的先决条件安装程序命令来设置 Docker,并选择性地安装 NVidia 驱动程序。这些脚本不应在将安装 AI Center 的计算机上运行。
OCR 引擎的先决条件与 Data Manager 相同。
Linux
运行以下命令:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
在某些系统上必须运行此命令两次,否则可能需要重新启动系统以安装所要求的所有依赖项。
特定于 Azure:要使用 NV 系列虚拟机,您需要在执行上述命令之前安装 NVIDIA 驱动程序,或者您可以使用 Azure 的驱动程序扩展程序根据该层 GPU 模型安装必要的 NVIDIA 驱动程序。
Azure 虚拟机
如果要在 Azure 虚拟机上安装,请改用此命令:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
UiPath 文档 OCR 是 UiPath 的专有 OCR 技术,支持以下拉丁语脚本语言使用的字符:英语、法语、德语、意大利语、葡萄牙语、罗马尼亚语和西班牙语。该技术能够识别其他语言的文本,但不带重音符号,例如,波兰语中的“Ł”将被识别为“L”。使用 UiPath 文档 OCR 处理的页面不计入与 Document Understanding 企业版许可证一起购买的页面配额,因此 UiPath 文档 OCR 可免费使用。
UiPath 文档 OCR 可在本地部署中作为 Docker 容器使用,也可在云中作为云服务 API 使用,网址为:https://du.uipath.com/ocr。请参阅“公共端点”页面上可用 URL 的完整说明。
Omnipage Docker 容器仅适用于 Data Manager,用于以 UiPath Document OCR 尚不支持的语言导入文档。
运行以下命令:
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
可以从 Google Cloud Platform 文档中获取端点。如果您的订阅中包含 Google Cloud Vision 服务,则可以从 Google Cloud Platform 控制台获取 API 密钥。
下表显示了如何在 Data Manager 和 AI Center 中配置 6 种受支持的 OCR 引擎类型。
ocr.method
参数对应于 AI Center 的“ML 包创建”视图中的“OCR 引擎”下拉列表。
OCR 引擎 |
ocr.method |
ocr.key |
ocr.url |
---|---|---|---|
UiPath |
UiPath |
UiPath Automation Cloud Document Understanding API 密钥 企业计划 |
|
OmniPage |
omnipage |
UiPath Automation Cloud Document Understanding API 密钥 企业计划 |
|
|
|
GCP 控制台 API 密钥 |
|
Microsoft Read 2.0 内部部署 |
Microsoft |
无 |
|
Microsoft Read 2.0 Azure |
Microsoft |
来自 Azure 门户的资源的 API 密钥 |
|
Microsoft Read 3.1 内部部署 |
Microsoft |
无 |
|
Microsoft Read 3.1 Azure |
Microsoft |
来自 Azure 门户的资源的 API 密钥 |
|