- Introdução
- Componentes do framework
- Pacotes de ML
- Pipelines
- Gerenciador de Dados
- Serviços de OCR
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Aprendizagem profunda
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guia do usuário do Document Understanding.
Serviços de OCR
Os serviços de OCR são usados para os seguintes propósitos:
- No momento da rotulagem de dados, ao importar documentos para o Data Manager. Os mecanismos disponíveis para esta etapa são UiPath Document OCR, Google Cloud Vision OCR e Microsoft Read OCR.
- Durante a execução, ao chamar modelos de fluxos de trabalho de RPA. Os mecanismos disponíveis para esta etapa são todos os mecanismos integrados à plataforma UiPath RPA, incluindo os acima, além do Abbyy Finereader, Microsoft OCR (legado), Microsoft Project Oxford OCR e Tesseract.
Na produção, recomendamos solicitar o OCR usando a atividade Digitize Document (digitalizar documento) em seu fluxo de trabalho e passar o Modelo de Objeto de Documento como entrada para a atividade que envia a solicitação para o modelo de ML. Para esse efeito, você precisa usar a atividade Machine Learning Extractor (Feed oficial).
Como uma conveniência rápida para fins de teste, você também pode configurar o OCR diretamente no AI Center (janela Configurações), mas isso não é recomendado para implantações de produção.
Esta seção detalha os requisitos de hardware e software para instalar os mecanismos de OCR.
-
Máquinas envolvidas: VM no laptop/box Cloud/On-Prem (nuvem ou local)
-
Sistemas operacionais: Windows (Windows 10)/Linux (Ubuntu/RedHat)
-
Motores de computação: CPU/GPU
-
OCR: UiPath Document OCR CPU/UiPath Document OCR GPU
|
Núcleos da CPU |
RAM (GB) |
RAM de vídeo (GB) | HDD (GB) |
---|---|---|---|---|
UiPath CPU |
4 |
4 |
50 | |
UiPath GPU |
1 |
4 |
8 |
50 |
Sistema operacional Linux
Se você instalar o produto em uma VM na nuvem, os seguintes sistemas operacionais serão suportados:
Software |
Versões |
---|---|
Ubuntu |
20.04 LTS 18.04 LTS 16.04 LTS |
RHEL |
7.x |
Se você instalar o produto em uma máquina em um datacenter local, os seguintes sistemas operacionais serão suportados:
Software |
Versões |
---|---|
Ubuntu |
20.04 LTS 18.04 LTS 16.04 LTS |
RHEL |
7.x |
Sistema operacional Windows
Consulte o site oficial do Docker para obter a lista de sistemas operacionais Windows suportados.
No Windows, sua máquina requer a virtualização esteja habilitada. É altamente recomendável que isso seja feito apenas em máquinas físicas, como laptops ou estações de trabalho desktop. Não oferecemos suporte à execução no Docker no Windows em máquinas virtuais (nuvem ou datacenter) usando virtualização aninhada.
Navegadores
Software |
Versões |
---|---|
Google Chrome |
50+ |
-
O Data Manager precisa de acesso ao mecanismo de OCR
<IP>:<port_number>
. O mecanismo de OCR pode ser UiPath Document OCR local, Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read local. -
Os robôs precisam ter acesso ao OCR
<IP>:<port_number>
. Mesmas opções de OCR acima. -
Os mecanismos de OCR precisam de acesso ao servidor de licenciamento hospedado pelo UiPath no Azure, na porta 443.
Se você deseja servir apenas modelos prontos para uso pré-treinados, pode executar um mecanismo de OCR em seu laptop Windows 10. Certifique-se de que o Docker Desktop tenha 8G de RAM disponíveis.
Se quiser tentar treinar um modelo personalizado como uma demonstração em um pequeno volume de dados (menos de 100 documentos), poderá executar o mecanismo de OCR em um ambiente com limite de 4 GB de RAM. Para casos pequenos como esse, uma GPU para o mecanismo de OCR pode não ser necessária.
Mecanismos de OCR são aplicativos em contêiner executados no Docker. Você não pode executá-los na mesma máquina que o AI Center local. Para executá-los em uma máquina separada, os comandos do instalador de pré-requisitos abaixo podem ser usados para configurar o Docker e, opcionalmente, os drivers NVidia. Esses scripts não devem ser executados na máquina em que o AI Center será instalado.
/
na coluna mais à direita:
df -h
df -h
Se o tamanho dessa partição for menor que os requisitos mínimos de armazenamento, consulte a seção Como configurar a pasta de dados do Docker.
Linux
Siga as instruções da documentação oficial do Docker ou execute este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu
Se esse comando falhar, você tem um sistema operacional Linux incompatível e precisa solicitar que seu TI instale o Docker na máquina seguindo as instruções na documentação oficial do Docker.
Máquinas virtuais (VMs) do Azure
Se você estiver instalando em uma VM no Azure, use este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure
Windows 10
Baixe e instale o Docker Desktop. Em versões atualizadas recentemente do Windows 10, você precisará do WSL2 instalado. Portanto, quando aparecer uma caixa de diálogo dizendo "A instalação do WSL 2 está incompleta", clique no botão Reiniciar.
workdir
para o Data Manager) e incluir o caminho para ele no comando docker run, após o sinalizador -v
. Ao fazer isso no Windows, o Docker Desktop exibirá uma notificação como a abaixo. Você precisa clicar em Compartilhar para continuar.
Preencha o caminho para a pasta onde deseja que o Docker mantenha seus arquivos, execute este comando e reinicie:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>
O Docker ajuda a implantar software em Docker "images. Uma instância em execução de uma imagem é chamada de contêiner. Um contêiner pode ser parado, removido, reiniciado, quantas vezes forem necessárias, desde que a imagem esteja disponível.
Após a imagem ser removida, ele é perdido. A única maneira de recuperá-lo é puxá-lo novamente do registro de onde veio, se ainda estiver disponível lá.
–v
e –p
, respectivamente.
Na tabela abaixo, você pode encontrar uma lista de comandos comuns para a linha de comando do Docker.
Clique aqui para obter a lista completa de comandos básicos do Docker.
Command |
Description |
---|---|
|
Faça login em um registro. |
|
Baixe uma imagem de um registro. A tag mais recente é comumente usada para se referir à versão mais recente de uma imagem. |
OU
|
Execute uma imagem no modo desassociado, enquanto mapeia a porta 80 de dentro do contêiner para a porta 5000 na máquina host e <container folder> para <host folder>. O modo desassociado significa que o contêiner não bloqueia o terminal, portanto, você pode realizar outras operações no mesmo terminal. |
|
Liste imagens presentes no seu sistema. |
|
Liste todos os contêineres (em execução e parados). O ID do contêiner é usado para se referir a esse contêiner quando é necessário pará-lo ou removê-lo, por exemplo. |
|
Pare o contêiner Este comando não remove o contêiner, mas é necessário antes de removê-lo. |
"
docker rm <container id> "
|
Remova o contêiner O contêiner deve ser interrompido de antemão. |
|
Exiba os logs do contêiner. |
|
Remova uma ou mais imagens do sistema. Isso ajuda a economizar espaço de armazenamento, pois as imagens podem ocupar muito espaço. |
|
Remova todos os contêineres parados |
Command |
Description |
---|---|
|
Execute um comando como administrador. Tente isso sempre que você receber o erro de Permissão Negada. |
|
Exiba informações sobre as interfaces de rede em seu sistema. Encontre o IP da sua máquina nas seções eth0 ou docker0. |
|
Exiba o caminho para a pasta atual. |
|
Liste o conteúdo de um diretório. |
|
Acesse uma pasta diferente. |
|
Crie uma nova pasta. |
Linux
Execute este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
Em alguns sistemas executando o comando duas vezes ou uma reinicialização do sistema pode ser necessária para instalar todos os requisitos.
Específico do Azure: para usar as máquinas virtuais da série NV, você precisa instalar o driver NVIDIA antes de executar o comando acima ou pode usar uma extensão de driver do Azure para instalar o driver NVIDIA necessário de acordo com esse modelo de GPU de camada.
Máquinas virtuais (VMs) do Azure
Se você estiver instalando em uma VM no Azure, use este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
O UiPath Document OCR é uma tecnologia de OCR proprietária da UiPath, suportando caracteres usados pelos seguintes idiomas de script latino: inglês, francês, alemão, italiano, português, romeno e espanhol. O texto em outros idiomas será reconhecido, mas sem acentos, por exemplo, “Ł” em polonês será reconhecido como “L”. As páginas processadas usando o UiPath Document OCR não são contadas para a cota de página adquirida com a licença Document Understanding Enterprise, portanto, o UiPath Document OCR pode ser usado gratuitamente.
O UiPath Document OCR está disponível com os seguintes tipos de implantação:
- URLs públicos na nuvem - mais detalhes na página Pontos de extremidade públicos
- no local (incluindo air-gapped) usando o pacote de atividades UiPath.DocumentUnderstanding.OCR.LocalServer (não requer acesso à Internet)
- contêiner docker autônomo regular local (requer acesso à Internet)
- contêiner docker autônomo local e isolado/air-gapped (não requer acesso à Internet)
- no local como Habilidade de ML na implantação regular do AI Center (requer acesso à Internet)
- no local como Habilidade de ML na implantação isolada/air-gapped do AI Center (não requer acesso à Internet)
-
Para instalar o contêiner docker autônomo do UiPath Document OCR, execute estes comandos:
docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest
docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest -
Execute usando CPUs
docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept -
Execute usando GPU
docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept -
No AI Center, ao criar um Pacote de ML, na parte inferior da tela há a seção de configuração de OCR opcional, na qual você pode definir o tipo de mecanismo de OCR do lado do servidor, o URL de OCR e a chave de OCR. A chave de OCR é a chave da API que você obtém na seção Licenças de sua conta do Automation Cloud. Esta é a configuração de OCR que será usada pela atividade MachineLearning Extractor se você marcar a caixa "UseServerSideOCR". Esta caixa está desmarcada por padrão e, nesse caso, o extrator usará o OCR na atividade Digitize Document.
Importante: o contêiner UiPath Document OCR não pode ser executado na mesma máquina que o AI Center On-Premises.
O ponto de extremidade pode ser obtido na documentação do Google Cloud Platform. O ApiKey pode ser obtido no console do Google Cloud Platform se você tiver um serviço do Google Cloud Vision em sua assinatura.
Configurando o serviço OCR no Data Manager e nos Pacotes de ML do Document Understanding no AI Center
A tabela abaixo mostra como configurar os seis tipos de mecanismo OCR suportados no Data Manager e no AI Center.
Mecanismo OCR |
Método de OCR |
Chave de OCR |
URL de OCR |
---|---|---|---|
UiPath |
UiPath Document OCR |
UiPath Automation Cloud Chave de API do Document Understanding Plano Enterprise |
|
|
Google Cloud Vision OCR |
Chave da API do Console do GCP |
|
Microsoft Read 2.0 On-Prem |
Microsoft Read OCR |
Nenhum |
|
Microsoft Read 2.0 Azure |
Microsoft Read OCR |
Chave de API para seu recurso do Portal do Azure |
|
Microsoft Read 3.2 On-Prem |
Microsoft Read OCR |
Nenhum |
|
Microsoft Read 3.2 Azure |
Microsoft Read OCR |
Chave de API para seu recurso do Portal do Azure |
|
- Sobre os serviços de OCR
- Requisitos
- Requisitos de Hardware
- Requisitos de software
- Configuração de rede
- Configuração Mínima de Teste ou Prova de Conceito
- Pré-requisitos
- Como instalar o Docker
- Como configurar a pasta de dados do Docker (somente Linux)
- Folha de referência do Docker
- Folha de referência do terminal Linux
- (Opcional) Instalação da máquina GPU
- Instalação
- UiPath Document OCR
- Google Cloud OCR
- Microsoft Read
- Configurando o serviço OCR no Data Manager e nos Pacotes de ML do Document Understanding no AI Center