document-understanding
2020.10
false
UiPath logo, featuring letters U and I in white
Obsoleto
Guia do usuário do Document Understanding.
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 29 de jul de 2024

Serviços de OCR

Sobre os serviços de OCR

Os serviços de OCR são usados para os seguintes propósitos:

  • No momento da rotulagem de dados, ao importar documentos para o Data Manager. Os serviços disponíveis para esta etapa são UiPath Document OCR (grátis na nuvem ou localmente), Google Cloud OCR (somente nuvem), Microsoft Read OCR (nuvem ou localmente) e OmniPage (somente localmente).
  • Durante a execução, ao chamar modelos de fluxos de trabalho de RPA. Os serviços disponíveis para esta etapa são todos os mecanismos de OCR integrados à plataforma UiPath RPA, incluindo os anteriores, além de Abbyy Finereader, Microsoft OCR (legado), Microsoft Project Oxford OCR e Tesseract.

Na produção, recomendamos solicitar o OCR usando a atividade Digitize Document (digitalizar documento) em seu fluxo de trabalho e passar o Modelo de Objeto de Documento como entrada para a atividade que envia a solicitação para o modelo de ML. Para esse efeito, você precisa usar a atividade Machine Learning Extractor (Feed oficial).

Como uma conveniência rápida para fins de teste, você também pode configurar o OCR diretamente no AI Center (janela Configurações), mas isso não é recomendado para implantações de produção.

Opções de implantação local

UiPath Document OCR tem 3 opções de implantação disponíveis:

  • No robô usando um pacote de atividade LocalServer e o pacote UiPath.OCR.Activities versão 3.1.0-visualização ou posterior - não requer acesso à Internet e nenhum hardware adicional, mas a máquina do robô precisa de uma CPU com suporte AVX2.
    • Esta deve ser sua opção padrão. Para volumes maiores, você pode adicionar mais robôs.
  • Contêiner autônomo do Docker em execução na máquina GPU Linux (veja abaixo - recomendado para volumes acima de 1 milhão de páginas/ano) - acesso à Internet necessário para licenciamento/medição
    • Esta deve ser sua opção padrão para grandes volumes, acima de 2 a 3 milhões de páginas por ano.
  • Contêiner autônomo do Docker em execução na máquina com CPU Linux (veja abaixo) - acesso à Internet necessário para licenciamento/medição
    • Somente em raras situações nas quais suas máquinas Robô são executadas em CPUs sem suporte a AVX2 ou em que a GPU não possa ser obtida.
  • Habilidade de ML no AI Center (consulte a seção Pacotes de ML) (recomenda-se uso de GPU) - acesso à Internet não é necessário no local se a instalação do AI Center for Air-gapped

Requisitos

Esta seção detalha os requisitos de hardware e software para instalar os mecanismos de OCR.

Requisitos de Hardware

  • Máquinas envolvidas: VM na nuvem (Cloud) ou laptop ou box local (On-Premises)

  • Sistemas operacionais: Windows (Windows 10) ou Linux (Ubuntu/CentOS/RedHat)

  • Mecanismos de computação: CPU ou GPU

  • OCR: UiPath Document OCR CPU ou UiPath Document OCR GPU ou OmniPage OCR CPU

Núcleos da CPU

RAM (GB)

RAM de vídeo (GB)

HDD (GB)

UiPath CPU

8

8

 

50

UiPath GPU

1

4

8

50

OmniPage CPU

1

2

 

30

Requisitos de software

Os requisitos de software para Mecanismos de OCR são os mesmos do Data Manager.

Configuração de rede

O Data Manager precisa de acesso ao mecanismo de OCR <IP>:<port_number>. O mecanismo de OCR pode ser UiPath Document OCR on-premises, Omnipage OCR on-premises, Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read on-premises.
Os robôs precisam ter acesso ao OCR <IP>:<port_number>. As mesmas opções de OCR acima, exceto para Omnipage, que está disponível nos robôs diretamente como um Pacote de atividades.

Os mecanismos de OCR precisam de acesso ao servidor de licenciamento hospedado pelo UiPath no Azure, na porta 443.

Configuração Mínima de Teste ou Prova de Conceito

Se você deseja servir apenas modelos prontos para uso pré-treinados, pode executar um mecanismo de OCR em seu laptop Windows 10. Certifique-se de que o Docker Desktop tenha 8G de RAM disponíveis.

Se quiser tentar treinar um modelo personalizado como uma demonstração em um pequeno volume de dados (menos de 100 documentos), poderá executar o mecanismo de OCR em um ambiente com limite de 4 GB de RAM. Para casos pequenos como esse, uma GPU para o mecanismo de OCR pode não ser necessária.

Pré-requisitos

Mecanismos de OCR são aplicativos em contêiner executados no Docker. Você não pode executá-los na mesma máquina que o AI Center local. Para executá-los em uma máquina separada, os comandos do instalador de pré-requisitos abaixo podem ser usados para configurar o Docker e, opcionalmente, os drivers NVidia. Esses scripts não devem ser executados na máquina em que o AI Center será instalado.

Os pré-requisitos para Mecanismos de OCR são os mesmos para o Data Manager.

(Opcional) Instalação da máquina GPU

Linux

Execute este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpucurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu

Em alguns sistemas executando o comando duas vezes ou uma reinicialização do sistema pode ser necessária para instalar todos os requisitos.

Específico do Azure: para usar as máquinas virtuais da série NV, você precisa instalar o driver NVIDIA antes de executar o comando acima ou pode usar uma Extensão de driver do Azure para instalar o driver NVIDIA necessário de acordo com o modelo de GPU desse nível.

Máquinas virtuais (VMs) do Azure

Se você estiver instalando em uma VM no Azure, use este comando:

curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azurecurl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure

Instalação

UiPath Document OCR (Visualização)

O UiPath Document OCR é uma tecnologia de OCR proprietária da UiPath, suportando caracteres usados pelos seguintes idiomas de script latino: inglês, francês, alemão, italiano, português, romeno e espanhol. O texto em outros idiomas será reconhecido, mas sem acentos, por exemplo, “Ł” em polonês será reconhecido como “L”. As páginas processadas usando o UiPath Document OCR não são contadas para a cota de página adquirida com a licença Document Understanding Enterprise, portanto, o UiPath Document OCR pode ser usado gratuitamente.

UiPath Document OCR está disponível localmente como um contêiner Docker e na nuvem como uma API de serviço em nuvem com o URL: https://du.uipath.com/ocr. Veja a descrição completa dos URLs disponíveis na página Pontos de extremidade públicos.

  1. Para instalar o UiPath Document OCR, execute estes comandos:
    docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latestdocker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest
  2. Execute usando CPUs
    docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  3. Execute usando GPU
    docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=acceptdocker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
  4. No AI Center, ao criar um Pacote de ML, na parte inferior da tela há a seção de configuração de OCR opcional, na qual você pode definir o tipo de mecanismo de OCR, o URL de OCR e a chave de OCR. A chave de OCR é a chave da API que você obtém na seção Licenças de sua conta do Automation Cloud.
    Importante: o contêiner UiPath Document OCR e o contêiner Omnipage OCR não podem ser executados na mesma máquina que o AI Center On-Premises.

OmniPage OCR

O contêiner Docker Omnipage destina-se a ser usado apenas com o Data Manager para importar documentos em idiomas que o UiPath Document OCR ainda não suporta.

Execute estes comandos:

docker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=acceptdocker login aiflprodweacr.azurecr.io -u *** -p ***docker pull aiflprodweacr.azurecr.io/omnipage-ocr:latestdocker run -d -p 5100:80 aiflprodweacr.azurecr.io/omnipage-ocr:latest LicenseAgreement=accept

Google Cloud OCR

O ponto de extremidade pode ser obtido na documentação do Google Cloud Platform. O ApiKey pode ser obtido no console do Google Cloud Platform se você tiver um serviço do Google Cloud Vision em sua assinatura.

Microsoft Read

Importante: aplicável a pontos de extremidade de contêiner do Azure e locais.

No caso dos serviços do Azure, você precisa fornecer o Endpoint e o ApiKey.

No caso de endpoints de contêiner locais, a chave de API não é necessária.

Configurando o serviço OCR no Data Manager e nos Pacotes de ML do Document Understanding no AI Center

A tabela abaixo mostra como configurar os seis tipos de mecanismo OCR suportados no Data Manager e no AI Center.

Importante: o argumento ocr.method corresponde à lista suspensa do mecanismo de OCR na exibição de criação do pacote de ML no AI Center.

Mecanismo OCR

ocr.method

ocr.key

ocr.url

UiPath

UiPath

UiPath Automation Cloud

Chave de API do Document Understanding

Plano Enterprise

http://<IP_addr>:<port_number>

OmniPage

omnipage

UiPath Automation Cloud

Chave de API do Document Understanding

Plano Enterprise

http://<IP_addr>:<port_number>

Google

Google

Chave da API do Console do GCP

https://vision.googleapis.com/v1/images:annotate

Microsoft Read 2.0 On-Prem

Microsoft

Nenhum

http://<IP_addr>:<port_number>/vision/v2.0/read/core/Analyze

Microsoft Read 2.0 Azure

Microsoft

Chave de API para seu recurso do Portal do Azure

<Azure_resource_Endpoint>/vision/v2.0/read/core/asyncBatchAnalyze

Microsoft Read 3.1 On-Prem

Microsoft

Nenhum

http://<IP_addr>:<port_number>/vision/v3.1/read/analyze

Microsoft Read 3.1 Azure

Microsoft

Chave de API para seu recurso do Portal do Azure

<Azure_resource_Endpoint>/vision/v3.1/read/analyze

Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo White
Confiança e segurança
© 2005-2024 UiPath. Todos os direitos reservados.