Document Understanding - Serviços de OCR

document-understanding

2020.10

false

Guia do usuário do Document Understanding.

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Serviços de OCR

Sobre os serviços de OCR

Os serviços de OCR são usados para os seguintes propósitos:

No momento da rotulagem de dados, ao importar documentos para o Data Manager. Os serviços disponíveis para esta etapa são UiPath Document OCR (grátis na nuvem ou localmente), Google Cloud OCR (somente nuvem), Microsoft Read OCR (nuvem ou localmente) e OmniPage (somente localmente).
Durante a execução, ao chamar modelos de fluxos de trabalho de RPA. Os serviços disponíveis para esta etapa são todos os mecanismos de OCR integrados à plataforma UiPath RPA, incluindo os anteriores, além de Abbyy Finereader, Microsoft OCR (legado), Microsoft Project Oxford OCR e Tesseract.

Na produção, recomendamos solicitar o OCR usando a atividade Digitize Document (digitalizar documento) em seu fluxo de trabalho e passar o Modelo de Objeto de Documento como entrada para a atividade que envia a solicitação para o modelo de ML. Para esse efeito, você precisa usar a atividade Machine Learning Extractor (Feed oficial).

Como uma conveniência rápida para fins de teste, você também pode configurar o OCR diretamente no AI Center (janela Configurações), mas isso não é recomendado para implantações de produção.

Opções de implantação local

UiPath Document OCR tem 3 opções de implantação disponíveis:

No robô usando um pacote de atividade LocalServer e o pacote UiPath.OCR.Activities versão 3.1.0-visualização ou posterior - não requer acesso à Internet e nenhum hardware adicional, mas a máquina do robô precisa de uma CPU com suporte AVX2.
- Esta deve ser sua opção padrão. Para volumes maiores, você pode adicionar mais robôs.
Contêiner autônomo do Docker em execução na máquina GPU Linux (veja abaixo - recomendado para volumes acima de 1 milhão de páginas/ano) - acesso à Internet necessário para licenciamento/medição
- Esta deve ser sua opção padrão para grandes volumes, acima de 2 a 3 milhões de páginas por ano.
Contêiner autônomo do Docker em execução na máquina com CPU Linux (veja abaixo) - acesso à Internet necessário para licenciamento/medição
- Somente em raras situações nas quais suas máquinas Robô são executadas em CPUs sem suporte a AVX2 ou em que a GPU não possa ser obtida.
Habilidade de ML no AI Center (consulte a seção Pacotes de ML) (recomenda-se uso de GPU) - acesso à Internet não é necessário no local se a instalação do AI Center for Air-gapped

Requisitos

Esta seção detalha os requisitos de hardware e software para instalar os mecanismos de OCR.

Requisitos de Hardware

Máquinas envolvidas: VM na nuvem (Cloud) ou laptop ou box local (On-Premises)
Sistemas operacionais: Windows (Windows 10) ou Linux (Ubuntu/CentOS/RedHat)
Mecanismos de computação: CPU ou GPU
OCR: UiPath Document OCR CPU ou UiPath Document OCR GPU ou OmniPage OCR CPU

	Núcleos da CPU	RAM (GB)	RAM de vídeo (GB)	HDD (GB)
UiPath CPU	8	8		50
UiPath GPU	1	4	8	50
OmniPage CPU	1	2		30

Requisitos de software

Os requisitos de software para Mecanismos de OCR são os mesmos do Data Manager.

Configuração de rede

O Data Manager precisa de acesso ao mecanismo de OCR <IP>:<port_number>. O mecanismo de OCR pode ser UiPath Document OCR on-premises, Omnipage OCR on-premises, Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read on-premises.

Os robôs precisam ter acesso ao OCR <IP>:<port_number>. As mesmas opções de OCR acima, exceto para Omnipage, que está disponível nos robôs diretamente como um Pacote de atividades.

Os mecanismos de OCR precisam de acesso ao servidor de licenciamento hospedado pelo UiPath no Azure, na porta 443.

Configuração Mínima de Teste ou Prova de Conceito

Se você deseja servir apenas modelos prontos para uso pré-treinados, pode executar um mecanismo de OCR em seu laptop Windows 10. Certifique-se de que o Docker Desktop tenha 8G de RAM disponíveis.

Se quiser tentar treinar um modelo personalizado como uma demonstração em um pequeno volume de dados (menos de 100 documentos), poderá executar o mecanismo de OCR em um ambiente com limite de 4 GB de RAM. Para casos pequenos como esse, uma GPU para o mecanismo de OCR pode não ser necessária.

Pré-requisitos

Mecanismos de OCR são aplicativos em contêiner executados no Docker. Você não pode executá-los na mesma máquina que o AI Center local. Para executá-los em uma máquina separada, os comandos do instalador de pré-requisitos abaixo podem ser usados para configurar o Docker e, opcionalmente, os drivers NVidia. Esses scripts não devem ser executados na máquina em que o AI Center será instalado.

Os pré-requisitos para Mecanismos de OCR são os mesmos para o Data Manager.

(Opcional) Instalação da máquina GPU

Linux

Execute este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

Em alguns sistemas executando o comando duas vezes ou uma reinicialização do sistema pode ser necessária para instalar todos os requisitos.

Específico do Azure: para usar as máquinas virtuais da série NV, você precisa instalar o driver NVIDIA antes de executar o comando acima ou pode usar uma Extensão de driver do Azure para instalar o driver NVIDIA necessário de acordo com o modelo de GPU desse nível.

Máquinas virtuais (VMs) do Azure

Se você estiver instalando em uma VM no Azure, use este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Instalação

UiPath Document OCR (Visualização)

O UiPath Document OCR é uma tecnologia de OCR proprietária da UiPath, suportando caracteres usados pelos seguintes idiomas de script latino: inglês, francês, alemão, italiano, português, romeno e espanhol. O texto em outros idiomas será reconhecido, mas sem acentos, por exemplo, “Ł” em polonês será reconhecido como “L”. As páginas processadas usando o UiPath Document OCR não são contadas para a cota de página adquirida com a licença Document Understanding Enterprise, portanto, o UiPath Document OCR pode ser usado gratuitamente.

UiPath Document OCR está disponível localmente como um contêiner Docker e na nuvem como uma API de serviço em nuvem com o URL: https://du.uipath.com/ocr. Veja a descrição completa dos URLs disponíveis na página Pontos de extremidade públicos.

Para instalar o UiPath Document OCR, execute estes comandos:

docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest

Execute usando CPUs

docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

Execute usando GPU

docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept

No AI Center, ao criar um Pacote de ML, na parte inferior da tela há a seção de configuração de OCR opcional, na qual você pode definir o tipo de mecanismo de OCR, o URL de OCR e a chave de OCR. A chave de OCR é a chave da API que você obtém na seção Licenças de sua conta do Automation Cloud.

Importante: o contêiner UiPath Document OCR e o contêiner Omnipage OCR não podem ser executados na mesma máquina que o AI Center On-Premises.

OmniPage OCR

O contêiner Docker Omnipage destina-se a ser usado apenas com o Data Manager para importar documentos em idiomas que o UiPath Document OCR ainda não suporta.

Execute estes comandos:

docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=acceptdocker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept

Google Cloud OCR

O ponto de extremidade pode ser obtido na documentação do Google Cloud Platform. O ApiKey pode ser obtido no console do Google Cloud Platform se você tiver um serviço do Google Cloud Vision em sua assinatura.

Microsoft Read

Importante: aplicável a pontos de extremidade de contêiner do Azure e locais.

No caso dos serviços do Azure, você precisa fornecer o Endpoint e o ApiKey.

No caso de endpoints de contêiner locais, a chave de API não é necessária.

Configurando o serviço OCR no Data Manager e nos Pacotes de ML do Document Understanding no AI Center

A tabela abaixo mostra como configurar os seis tipos de mecanismo OCR suportados no Data Manager e no AI Center.

Importante: o argumento ocr.method corresponde à lista suspensa do mecanismo de OCR na exibição de criação do pacote de ML no AI Center.

Mecanismo OCR	ocr.method	ocr.key	ocr.url
UiPath	UiPath	UiPath Automation Cloud Chave de API do Document Understanding Plano Enterprise	`http://<IP_addr>:<port_number>`
OmniPage	omnipage	UiPath Automation Cloud Chave de API do Document Understanding Plano Enterprise	`http://<IP_addr>:<port_number>`
Google	Google	Chave da API do Console do GCP	`https://vision.googleapis.com/v1/images:annotate`
Microsoft Read 2.0 On-Prem	Microsoft	Nenhum	`http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze`
Microsoft Read 2.0 Azure	Microsoft	Chave de API para seu recurso do Portal do Azure	`<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze`
Microsoft Read 3.1 On-Prem	Microsoft	Nenhum	`http://<IP_addr>:<port_number>/vision/v3.1/read/analyze`
Microsoft Read 3.1 Azure	Microsoft	Chave de API para seu recurso do Portal do Azure	`<Azure_resource_Endpoint>/vision/v3.1/read/analyze`

Nesta página

Sobre os serviços de OCR
Opções de implantação local
Requisitos
Requisitos de Hardware
Requisitos de software
Configuração de rede
Configuração Mínima de Teste ou Prova de Conceito
Pré-requisitos
(Opcional) Instalação da máquina GPU
Instalação
UiPath Document OCR (Visualização)
OmniPage OCR
Google Cloud OCR
Microsoft Read
Configurando o serviço OCR no Data Manager e nos Pacotes de ML do Document Understanding no AI Center

Esta página foi útil?

AnteriorCaixas de seleção e assinaturas

AvançarEndpoints públicos