- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
Document Understanding 用户指南
安装 Data Manager
本节详细介绍了安装 Data Manager 的硬件要求和软件要求。
-
涉及的计算机:云虚拟机或本地部署计算机或笔记本电脑
-
操作系统:Windows (Windows 10) 或 Linux (Ubuntu/CentOS/RedHat)
-
计算引擎:CPU
-
OCR:必需
CPU 核心 |
RAM (GB) |
硬盘 (GB) |
---|---|---|
1 |
4 |
Resolution settings |
Linux 操作系统
如果您在云虚拟机上安装产品,则支持以下操作系统:
软件 |
版本 |
---|---|
Ubuntu |
20.04 LTS 18.04 LTS 16.04 LTS |
RHEL |
7.x |
如果您在内部部署数据中心的计算机上安装产品,则支持以下操作系统:
软件 |
版本 |
---|---|
Ubuntu |
20.04 LTS 18.04 LTS 16.04 LTS |
RHEL |
7.x |
CentOS |
7.x |
Windows 操作系统
有关受支持的 Windows 操作系统的列表,请访问 Docker 官方网站。
在 Windows 上,您的计算机需要启用虚拟化。我们强烈建议您仅在笔记本电脑或桌面工作站等物理计算机上执行此操作。我们不支持使用嵌套虚拟化技术在虚拟机(云或数据中心)的 Windows 上的 Docker 上运行。
浏览器
软件 |
版本 |
---|---|
Google Chrome |
50+ |
Data Manager 是在 Docker 之上运行的容器化应用程序。它不能在与本地部署 AI Center 相同的计算机上运行。要在单独的计算机上运行它,您只需安装 Docker(在 Linux 上)或 Docker Desktop(在 Windows 上)。
/
的行:
df -h
df -h
如果该分区的大小低于最小存储要求,请参阅“配置 Docker 数据文件夹”一节。
Linux
按照 Docker 官方文档中的说明进行操作,或运行以下命令:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu
如果此命令失败,则说明您的 Linux 操作系统不兼容,您需要请求 IT 部门按照 Docker 官方文档中的说明在计算机上安装 Docker。
Azure 虚拟机
如果要在 Azure 虚拟机上安装,请改用此命令:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure
Windows 10
下载并安装 Docker Desktop。在 Windows 10 的最新更新版本上,您需要安装 WSL 2。因此,当出现“WSL 2 安装未完成”对话框时,请单击“重新启动”按钮。
workdir
),并将其路径包含在 docker run 命令中的 -v
标志后面。在 Windows 上执行此操作时,Docker Desktop 将弹出如下通知。您需要单击“共享”以继续。
填写您希望 Docker 将其文件保存到的文件夹的路径,然后运行此命令,接着重新启动:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>
Docker 帮助以“Docker 映像”形式发布软件。映像的运行实例称为容器。只要有映像,就可以根据需要多次停止、删除和重新启动容器。
删除映像后,映像将丢失。恢复映像的唯一方法是,如果它仍然存在,请从它来自的注册表中再次拉取它。
–v
和 –p
参数分别将文件夹和端口从容器映射到主机。
在下表中,您可以找到 Docker 命令行的常用命令列表。
单击此处查看基本 Docker 命令的完整列表。
命令 |
描述 |
---|---|
“
docker login <registry name> -u <username> -p <password> ”
|
登录到注册表。 |
“
docker pull <registry name>/<image name>:<image tag> ”
|
从注册表下载映像。标签“最新”通常用于指代映像的最新版本。 |
"`docker run –d -p 5000:80 <registry name>/<image name>:<image tag> 或 docker run –d –p 5000:80 <image id> `" |
在分离模式下运行容器,同时将端口 80 从容器内部映射到主机上的端口 5000,并将 <container folder> 映射到 <host folder>。分离模式表示容器不会阻止终端,因此您可以在同一个终端上执行其他操作。 |
“
docker images ”
|
列出系统中存在的映像。 |
“
docker ps –a ”
|
列出所有容器(正在运行和已停止)。
|
“
docker stop <container id> ”
|
停止容器
|
“
docker rm <container id> ”
|
删除容器
|
“
docker logs <container id> ”
|
并显示容器的日志 |
“
docker rmi <image id> ”
|
从系统中删除一个或多个映像。
|
“
Docker container prune -f ”
|
删除所有已停止的容器 |
确保您拥有注册表凭据。如果您尚未收到注册表凭据,则需要联系销售代表并请求为您生成一组凭据。
然后在 Powershell 或命令行终端(在 Windows 上)或 Shell 终端(在 Linux 上)中键入以下内容:
docker login aiflprodweacr.azurecr.io -u <username> -p <password>docker pull aiflprodweacr.azurecr.io/datamanager:latest
docker login aiflprodweacr.azurecr.io -u <username> -p <password>docker pull aiflprodweacr.azurecr.io/datamanager:latest
要启动 Data Manager,请使用以下命令:
docker run -d -p <port_number>:80 -v "<path_to_working_folder>:/app/data" aiflprodweacr.azurecr.io/datamanager:latest --license-agreement accept
docker run -d -p <port_number>:80 -v "<path_to_working_folder>:/app/data" aiflprodweacr.azurecr.io/datamanager:latest --license-agreement accept
将 <port_number> 替换为您希望 Data Manager 能够访问的端口号。成千上万个端口是常见端口,例如 5000、8000、8080、8081 等。将 <path_to_working_folder> 替换为您希望 Data Manager 在其中保留其所有内部配置和数据的本地文件夹。确保 Docker 服务有权访问该文件夹。
http://localhost:<port_number>
。
localhost
替换为运行 datamanager 容器的机器的 IP 地址。
要运行多个 Data Manager 会话,请更改文件夹路径,然后再次运行命令。
自签名证书
如果在内部部署 AI Center 中部署的 ML 技能未使用有效的 HTTPS 证书,您可以使用命令行选项将自签名证书的根列入白名单。
证书需要为 PEM 格式。只要满足此要求,文件扩展名就可以忽略不计。
证书必须存在于 Docker 容器中,因此必须进行装载。因此,请使用 -v 将证书文件装载到容器中,然后指定该文件的路径:
docker run -d -p <port_number>:80 -v "<path_to_working_folder>:/app/data" -v "<path_to_certificate_file>":/custom.cer aiflprodweacr.azurecr.io/datamanager:latest --license-agreement accept --custom-root-cert="/custom.cer"
docker run -d -p <port_number>:80 -v "<path_to_working_folder>:/app/data" -v "<path_to_certificate_file>":/custom.cer aiflprodweacr.azurecr.io/datamanager:latest --license-agreement accept --custom-root-cert="/custom.cer"
path_to_certificate_file
不支持符号链接。
custom.cer
)在第一个参数和第二个参数中必须相同。如果更改了其中一个参数,则也需要更改另一个参数。
如果您需要在无法访问互联网(实体隔离)的计算机上设置 Data Manager,则需要在其他可以访问互联网的计算机上运行上述命令。
接着,您需要将容器保存为 .tar 文件,将文件复制到离线计算机,然后加载该文件。可以使用 Docker 文档中介绍的“docker save”和“docker load”命令来完成该操作。
因此,在连接到互联网的计算机上,您需要先安装 Docker,然后在运行上述的 docker login 和 docker pull 命令后,您需要运行以下命令:
docker save -o datamanager-latest.tar aiflprodweacr.azurecr.io/datamanager:latest
docker save -o datamanager-latest.tar aiflprodweacr.azurecr.io/datamanager:latest
接着,您需要将 .tar 文件复制到离线计算机,然后在该 .tar 文件保存到的文件夹中运行此命令:
docker load --input datamanager-latest.tar
docker load --input datamanager-latest.tar
请注意,tar 文件将很大,可能会多达数 GB。