document-understanding

2021.10

false

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Fora do período de suporte

Guia do usuário do Document Understanding.

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 4 de fev de 2025

Serviços de OCR

Sobre os serviços de OCR

Os serviços de OCR são usados para os seguintes propósitos:

No momento da rotulagem de dados, ao importar documentos para o Data Manager. Os mecanismos disponíveis para esta etapa são UiPath Document OCR, Google Cloud Vision OCR e Microsoft Read OCR.
Durante a execução, ao chamar modelos de fluxos de trabalho de RPA. Os mecanismos disponíveis para esta etapa são todos os mecanismos integrados à plataforma UiPath RPA, incluindo os acima, além do Abbyy Finereader, Microsoft OCR (legado), Microsoft Project Oxford OCR e Tesseract.

Na produção, recomendamos solicitar o OCR usando a atividade Digitize Document (digitalizar documento) em seu fluxo de trabalho e passar o Modelo de Objeto de Documento como entrada para a atividade que envia a solicitação para o modelo de ML. Para esse efeito, você precisa usar a atividade Machine Learning Extractor (Feed oficial).

Como uma conveniência rápida para fins de teste, você também pode configurar o OCR diretamente no AI Center (janela Configurações), mas isso não é recomendado para implantações de produção.

Requisitos

Esta seção detalha os requisitos de hardware e software para instalar os mecanismos de OCR.

Requisitos de Hardware

Máquinas envolvidas: VM no laptop/box Cloud/On-Prem (nuvem ou local)
Sistemas operacionais: Windows (Windows 10)/Linux (Ubuntu/RedHat)
Motores de computação: CPU/GPU
OCR: UiPath Document OCR CPU/UiPath Document OCR GPU

	Núcleos da CPU	RAM (GB)	RAM de vídeo (GB)	HDD (GB)
UiPath CPU	4	4		50
UiPath GPU	1	4	8	50

Requisitos de software

Sistema operacional Linux

Se você instalar o produto em uma VM na nuvem, os seguintes sistemas operacionais serão suportados:

Software	Versões
Ubuntu	20.04 LTS 18.04 LTS 16.04 LTS
RHEL	7.x

Se você instalar o produto em uma máquina em um datacenter local, os seguintes sistemas operacionais serão suportados:

Software	Versões
Ubuntu	20.04 LTS 18.04 LTS 16.04 LTS
RHEL	7.x

Sistema operacional Windows

Consulte o site oficial do Docker para obter a lista de sistemas operacionais Windows suportados.

No Windows, sua máquina requer a virtualização esteja habilitada. É altamente recomendável que isso seja feito apenas em máquinas físicas, como laptops ou estações de trabalho desktop. Não oferecemos suporte à execução no Docker no Windows em máquinas virtuais (nuvem ou datacenter) usando virtualização aninhada.

Navegadores

Software	Versões
Google Chrome	50+

Configuração de rede

O Data Manager precisa de acesso ao mecanismo de OCR <IP>:<port_number>. O mecanismo de OCR pode ser UiPath Document OCR local, Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read local.
Os robôs precisam ter acesso ao OCR <IP>:<port_number>. Mesmas opções de OCR acima.
Os mecanismos de OCR precisam de acesso ao servidor de licenciamento hospedado pelo UiPath no Azure, na porta 443.

Configuração Mínima de Teste ou Prova de Conceito

Se você deseja servir apenas modelos prontos para uso pré-treinados, pode executar um mecanismo de OCR em seu laptop Windows 10. Certifique-se de que o Docker Desktop tenha 8G de RAM disponíveis.

Se quiser tentar treinar um modelo personalizado como uma demonstração em um pequeno volume de dados (menos de 100 documentos), poderá executar o mecanismo de OCR em um ambiente com limite de 4 GB de RAM. Para casos pequenos como esse, uma GPU para o mecanismo de OCR pode não ser necessária.

Pré-requisitos

Mecanismos de OCR são aplicativos em contêiner executados no Docker. Você não pode executá-los na mesma máquina que o AI Center local. Para executá-los em uma máquina separada, os comandos do instalador de pré-requisitos abaixo podem ser usados para configurar o Docker e, opcionalmente, os drivers NVidia. Esses scripts não devem ser executados na máquina em que o AI Center será instalado.

Importante: as imagens do Docker podem ter muitos GB de tamanho, portanto, a pasta que o Docker usa para armazenar seus arquivos no Linux deve estar em uma partição suficientemente grande para não ficar sem espaço.Por padrão, está sempre na partição raiz.

Para visualizar o tamanho da sua partição raiz, digite o seguinte no terminal e procure a linha com um / na coluna mais à direita:

df -hdf -h

Se o tamanho dessa partição for menor que os requisitos mínimos de armazenamento, consulte a seção Como configurar a pasta de dados do Docker.

Como instalar o Docker

Linux

Siga as instruções da documentação oficial do Docker ou execute este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu

Se esse comando falhar, você tem um sistema operacional Linux incompatível e precisa solicitar que seu TI instale o Docker na máquina seguindo as instruções na documentação oficial do Docker.

Máquinas virtuais (VMs) do Azure

Se você estiver instalando em uma VM no Azure, use este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure

Windows 10

Baixe e instale o Docker Desktop. Em versões atualizadas recentemente do Windows 10, você precisará do WSL2 instalado. Portanto, quando aparecer uma caixa de diálogo dizendo "A instalação do WSL 2 está incompleta", clique no botão Reiniciar.

Ao executar o Data Manager, você precisa criar uma pasta de trabalho para cada contêiner Docker (talvez chamado workdir para o Data Manager) e incluir o caminho para ele no comando docker run, após o sinalizador -v. Ao fazer isso no Windows, o Docker Desktop exibirá uma notificação como a abaixo. Você precisa clicar em Compartilhar para continuar.

Como configurar a pasta de dados do Docker (somente Linux)

Preencha o caminho para a pasta onde deseja que o Docker mantenha seus arquivos, execute este comando e reinicie:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>

Folha de referência do Docker

O Docker ajuda a implantar software em Docker "images. Uma instância em execução de uma imagem é chamada de contêiner. Um contêiner pode ser parado, removido, reiniciado, quantas vezes forem necessárias, desde que a imagem esteja disponível.

Após a imagem ser removida, ele é perdido. A única maneira de recuperá-lo é puxá-lo novamente do registro de onde veio, se ainda estiver disponível lá.

Um contêiner em execução é análogo a uma pequena máquina virtual, pois possui um filesystem interno e interfaces de rede, separados do filesystem e da rede da máquina host. Pastas e portas podem ser mapeadas do contêiner para o host usando os argumentos –v e –p, respectivamente.

Na tabela abaixo, você pode encontrar uma lista de comandos comuns para a linha de comando do Docker.

Clique aqui para obter a lista completa de comandos básicos do Docker.

Command	Description
`docker login <registry name> -u <username> -p <password>`	Faça login em um registro.
`docker pull <registry name>/<image name>:<image tag>`	Baixe uma imagem de um registro. A tag mais recente é comumente usada para se referir à versão mais recente de uma imagem.
`docker run –d -p 5000:80 <registry name>/<image name>:<image tag>` OU `docker run –d –p 5000:80 <image id>`	Execute uma imagem no modo desassociado, enquanto mapeia a porta 80 de dentro do contêiner para a porta 5000 na máquina host e <container folder> para <host folder>. O modo desassociado significa que o contêiner não bloqueia o terminal, portanto, você pode realizar outras operações no mesmo terminal.
`docker images`	Liste imagens presentes no seu sistema.
`docker ps –a`	Liste todos os contêineres (em execução e parados). O ID do contêiner é usado para se referir a esse contêiner quando é necessário pará-lo ou removê-lo, por exemplo.
`docker stop <container id>`	Pare o contêiner Este comando não remove o contêiner, mas é necessário antes de removê-lo.
"`docker rm <container id>`"	Remova o contêiner O contêiner deve ser interrompido de antemão.
`docker logs <container id>`	Exiba os logs do contêiner.
`docker rmi <image id>`	Remova uma ou mais imagens do sistema. Isso ajuda a economizar espaço de armazenamento, pois as imagens podem ocupar muito espaço.
`Docker container prune -f`	Remova todos os contêineres parados

Folha de referência do terminal Linux

Command	Description
`sudo <any_command>`	Execute um comando como administrador. Tente isso sempre que você receber o erro de Permissão Negada.
`ifconfig`	Exiba informações sobre as interfaces de rede em seu sistema. Encontre o IP da sua máquina nas seções eth0 ou docker0.
`pwd`	Exiba o caminho para a pasta atual.
`ls`	Liste o conteúdo de um diretório.
`cd <folder_name>`	Acesse uma pasta diferente.
`mkdir <folder_name>`	Crie uma nova pasta.

(Opcional) Instalação da máquina GPU

Linux

Execute este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

Em alguns sistemas executando o comando duas vezes ou uma reinicialização do sistema pode ser necessária para instalar todos os requisitos.

Específico do Azure: para usar as máquinas virtuais da série NV, você precisa instalar o driver NVIDIA antes de executar o comando acima ou pode usar uma extensão de driver do Azure para instalar o driver NVIDIA necessário de acordo com esse modelo de GPU de camada.

Máquinas virtuais (VMs) do Azure

Se você estiver instalando em uma VM no Azure, use este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Instalação

UiPath Document OCR

O UiPath Document OCR é uma tecnologia de OCR proprietária da UiPath, suportando caracteres usados pelos seguintes idiomas de script latino: inglês, francês, alemão, italiano, português, romeno e espanhol. O texto em outros idiomas será reconhecido, mas sem acentos, por exemplo, “Ł” em polonês será reconhecido como “L”. As páginas processadas usando o UiPath Document OCR não são contadas para a cota de página adquirida com a licença Document Understanding Enterprise, portanto, o UiPath Document OCR pode ser usado gratuitamente.

O UiPath Document OCR está disponível com os seguintes tipos de implantação:

URLs públicos na nuvem - mais detalhes na página Pontos de extremidade públicos
no local (incluindo air-gapped) usando o pacote de atividades UiPath.DocumentUnderstanding.OCR.LocalServer (não requer acesso à Internet)
contêiner docker autônomo regular local (requer acesso à Internet)
contêiner docker autônomo local e isolado/air-gapped (não requer acesso à Internet)
no local como Habilidade de ML na implantação regular do AI Center (requer acesso à Internet)
no local como Habilidade de ML na implantação isolada/air-gapped do AI Center (não requer acesso à Internet)

Para instalar o contêiner docker autônomo do UiPath Document OCR, execute estes comandos:

docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest

Execute usando CPUs

docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Execute usando GPU

docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

No AI Center, ao criar um Pacote de ML, na parte inferior da tela há a seção de configuração de OCR opcional, na qual você pode definir o tipo de mecanismo de OCR do lado do servidor, o URL de OCR e a chave de OCR. A chave de OCR é a chave da API que você obtém na seção Licenças de sua conta do Automation Cloud. Esta é a configuração de OCR que será usada pela atividade MachineLearning Extractor se você marcar a caixa "UseServerSideOCR". Esta caixa está desmarcada por padrão e, nesse caso, o extrator usará o OCR na atividade Digitize Document.

Importante: o contêiner UiPath Document OCR não pode ser executado na mesma máquina que o AI Center On-Premises.

Google Cloud OCR

O ponto de extremidade pode ser obtido na documentação do Google Cloud Platform. O ApiKey pode ser obtido no console do Google Cloud Platform se você tiver um serviço do Google Cloud Vision em sua assinatura.

Microsoft Read

Importante: aplicável a pontos de extremidade de contêiner do Azure e locais.

No caso dos serviços do Azure, você precisa fornecer o Endpoint e o ApiKey.

No caso de endpoints de contêiner locais, a chave de API não é necessária.

Configurando o serviço OCR no Data Manager e nos Pacotes de ML do Document Understanding no AI Center

A tabela abaixo mostra como configurar os seis tipos de mecanismo OCR suportados no Data Manager e no AI Center.

Mecanismo OCR	Método de OCR	Chave de OCR	URL de OCR
UiPath	UiPath Document OCR	UiPath Automation Cloud Chave de API do Document Understanding Plano Enterprise	`http://<IP_addr>:<port_number>`
Google	Google Cloud Vision OCR	Chave da API do Console do GCP	`https://vision.googleapis.com/v1/images:annotate`
Microsoft Read 2.0 On-Prem	Microsoft Read OCR	Nenhum	`http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze`
Microsoft Read 2.0 Azure	Microsoft Read OCR	Chave de API para seu recurso do Portal do Azure	`<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze`
Microsoft Read 3.2 On-Prem	Microsoft Read OCR	Nenhum	`http://<IP_addr>:<port_number>/vision/v3.2/read/analyze`
Microsoft Read 3.2 Azure	Microsoft Read OCR	Chave de API para seu recurso do Portal do Azure	`<Azure_resource_Endpoint>/vision/v3.2/read/analyze`