- Introdução
- Componentes do framework
- Document Understanding no AI Center
- Pipelines
- Pacotes de ML
- Gerenciador de Dados
- Serviços de OCR
- Serviços de OCR
- Licenciamento
- Referências
Guia do usuário do Document Understanding.
Serviços de OCR
Os serviços de OCR são usados para os seguintes propósitos:
- No momento da rotulagem de dados, ao importar documentos para o Data Manager. Os serviços disponíveis para esta etapa são UiPath Document OCR (grátis na nuvem ou localmente), Google Cloud OCR (somente nuvem), Microsoft Read OCR (nuvem ou localmente) e OmniPage (somente localmente).
- Durante a execução, ao chamar modelos de fluxos de trabalho de RPA. Os serviços disponíveis para esta etapa são todos os mecanismos de OCR integrados à plataforma UiPath RPA, incluindo os anteriores, além de Abbyy Finereader, Microsoft OCR (legado), Microsoft Project Oxford OCR e Tesseract.
Na produção, recomendamos solicitar o OCR usando a atividade Digitize Document (digitalizar documento) em seu fluxo de trabalho e passar o Modelo de Objeto de Documento como entrada para a atividade que envia a solicitação para o modelo de ML. Para esse efeito, você precisa usar a atividade Machine Learning Extractor (Feed oficial).
Como uma conveniência rápida para fins de teste, você também pode configurar o OCR diretamente no AI Center (janela Configurações), mas isso não é recomendado para implantações de produção.
UiPath Document OCR tem 3 opções de implantação disponíveis:
- No robô usando um pacote de atividade LocalServer e o pacote UiPath.OCR.Activities versão 3.1.0-visualização ou posterior - não requer acesso à Internet e nenhum hardware adicional, mas a máquina do robô precisa de uma CPU com suporte AVX2.
- Esta deve ser sua opção padrão. Para volumes maiores, você pode adicionar mais robôs.
- Contêiner autônomo do Docker em execução na máquina GPU Linux (veja abaixo - recomendado para volumes acima de 1 milhão de páginas/ano) - acesso à Internet necessário para licenciamento/medição
- Esta deve ser sua opção padrão para grandes volumes, acima de 2 a 3 milhões de páginas por ano.
- Contêiner autônomo do Docker em execução na máquina com CPU Linux (veja abaixo) - acesso à Internet necessário para licenciamento/medição
- Somente em raras situações nas quais suas máquinas Robô são executadas em CPUs sem suporte a AVX2 ou em que a GPU não possa ser obtida.
- Habilidade de ML no AI Center (consulte a seção Pacotes de ML) (recomenda-se uso de GPU) - acesso à Internet não é necessário no local se a instalação do AI Center for Air-gapped
Esta seção detalha os requisitos de hardware e software para instalar os mecanismos de OCR.
-
Máquinas envolvidas: VM na nuvem (Cloud) ou laptop ou box local (On-Premises)
-
Sistemas operacionais: Windows (Windows 10) ou Linux (Ubuntu/CentOS/RedHat)
-
Mecanismos de computação: CPU ou GPU
-
OCR: UiPath Document OCR CPU ou UiPath Document OCR GPU ou OmniPage OCR CPU
|
Núcleos da CPU |
RAM (GB) |
RAM de vídeo (GB) | HDD (GB) |
---|---|---|---|---|
UiPath CPU |
8 |
8 |
50 | |
UiPath GPU |
1 |
4 |
8 |
50 |
OmniPage CPU |
1 |
2 |
30 |
Os requisitos de software para Mecanismos de OCR são os mesmos do Data Manager.
<IP>:<port_number>
. O mecanismo de OCR pode ser UiPath Document OCR on-premises, Omnipage OCR on-premises, Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read on-premises.
<IP>:<port_number>
. As mesmas opções de OCR acima, exceto para Omnipage, que está disponível nos robôs diretamente como um Pacote de atividades.
Os mecanismos de OCR precisam de acesso ao servidor de licenciamento hospedado pelo UiPath no Azure, na porta 443.
Se você deseja servir apenas modelos prontos para uso pré-treinados, pode executar um mecanismo de OCR em seu laptop Windows 10. Certifique-se de que o Docker Desktop tenha 8G de RAM disponíveis.
Se quiser tentar treinar um modelo personalizado como uma demonstração em um pequeno volume de dados (menos de 100 documentos), poderá executar o mecanismo de OCR em um ambiente com limite de 4 GB de RAM. Para casos pequenos como esse, uma GPU para o mecanismo de OCR pode não ser necessária.
Mecanismos de OCR são aplicativos em contêiner executados no Docker. Você não pode executá-los na mesma máquina que o AI Center local. Para executá-los em uma máquina separada, os comandos do instalador de pré-requisitos abaixo podem ser usados para configurar o Docker e, opcionalmente, os drivers NVidia. Esses scripts não devem ser executados na máquina em que o AI Center será instalado.
Os pré-requisitos para Mecanismos de OCR são os mesmos para o Data Manager.
Linux
Execute este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
Em alguns sistemas executando o comando duas vezes ou uma reinicialização do sistema pode ser necessária para instalar todos os requisitos.
Específico do Azure: para usar as máquinas virtuais da série NV, você precisa instalar o driver NVIDIA antes de executar o comando acima ou pode usar uma Extensão de driver do Azure para instalar o driver NVIDIA necessário de acordo com o modelo de GPU desse nível.
Máquinas virtuais (VMs) do Azure
Se você estiver instalando em uma VM no Azure, use este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
O UiPath Document OCR é uma tecnologia de OCR proprietária da UiPath, suportando caracteres usados pelos seguintes idiomas de script latino: inglês, francês, alemão, italiano, português, romeno e espanhol. O texto em outros idiomas será reconhecido, mas sem acentos, por exemplo, “Ł” em polonês será reconhecido como “L”. As páginas processadas usando o UiPath Document OCR não são contadas para a cota de página adquirida com a licença Document Understanding Enterprise, portanto, o UiPath Document OCR pode ser usado gratuitamente.
UiPath Document OCR está disponível localmente como um contêiner Docker e na nuvem como uma API de serviço em nuvem com o URL: https://du.uipath.com/ocr. Veja a descrição completa dos URLs disponíveis na página Pontos de extremidade públicos.
O contêiner Docker Omnipage destina-se a ser usado apenas com o Data Manager para importar documentos em idiomas que o UiPath Document OCR ainda não suporta.
Execute estes comandos:
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept
O ponto de extremidade pode ser obtido na documentação do Google Cloud Platform. O ApiKey pode ser obtido no console do Google Cloud Platform se você tiver um serviço do Google Cloud Vision em sua assinatura.
Configurando o serviço OCR no Data Manager e nos Pacotes de ML do Document Understanding no AI Center
A tabela abaixo mostra como configurar os seis tipos de mecanismo OCR suportados no Data Manager e no AI Center.
ocr.method
corresponde à lista suspensa do mecanismo de OCR na exibição de criação do pacote de ML no AI Center.
Mecanismo OCR |
ocr.method |
ocr.key |
ocr.url |
---|---|---|---|
UiPath |
UiPath |
UiPath Automation Cloud Chave de API do Document Understanding Plano Enterprise |
|
OmniPage |
omnipage |
UiPath Automation Cloud Chave de API do Document Understanding Plano Enterprise |
|
|
|
Chave da API do Console do GCP |
|
Microsoft Read 2.0 On-Prem |
Microsoft |
Nenhum |
|
Microsoft Read 2.0 Azure |
Microsoft |
Chave de API para seu recurso do Portal do Azure |
|
Microsoft Read 3.1 On-Prem |
Microsoft |
Nenhum |
|
Microsoft Read 3.1 Azure |
Microsoft |
Chave de API para seu recurso do Portal do Azure |
|
- Sobre os serviços de OCR
- Opções de implantação local
- Requisitos
- Requisitos de Hardware
- Requisitos de software
- Configuração de rede
- Configuração Mínima de Teste ou Prova de Conceito
- Pré-requisitos
- (Opcional) Instalação da máquina GPU
- Instalação
- UiPath Document OCR (Visualização)
- OmniPage OCR
- Google Cloud OCR
- Microsoft Read
- Configurando o serviço OCR no Data Manager e nos Pacotes de ML do Document Understanding no AI Center