- Introdução
- Componentes do framework
- Pacotes de ML
- Pipelines
- Gerenciador de Dados
- Serviços de OCR
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Aprendizagem profunda
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Guia do usuário do Document Understanding.
Serviços de OCR
linkSobre os serviços de OCR
linkOs serviços de OCR são usados para os seguintes propósitos:
- No momento da rotulagem de dados, ao importar documentos para o Data Manager. Os mecanismos disponíveis para esta etapa são UiPath Document OCR, Google Cloud Vision OCR e Microsoft Read OCR.
- Durante a execução, ao chamar modelos de fluxos de trabalho de RPA. Os mecanismos disponíveis para esta etapa são todos os mecanismos integrados à plataforma UiPath RPA, incluindo os acima, além do Abbyy Finereader, Microsoft OCR (legado), Microsoft Project Oxford OCR e Tesseract.
Na produção, recomendamos solicitar o OCR usando a atividade Digitize Document (digitalizar documento) em seu fluxo de trabalho e passar o Modelo de Objeto de Documento como entrada para a atividade que envia a solicitação para o modelo de ML. Para esse efeito, você precisa usar a atividade Machine Learning Extractor (Feed oficial).
Como uma conveniência rápida para fins de teste, você também pode configurar o OCR diretamente no AI Center (janela Configurações), mas isso não é recomendado para implantações de produção.
Requisitos
linkEsta seção detalha os requisitos de hardware e software para instalar os mecanismos de OCR.
Requisitos de Hardware
-
Máquinas envolvidas: VM no laptop/box Cloud/On-Prem (nuvem ou local)
-
Sistemas operacionais: Windows (Windows 10)/Linux (Ubuntu/RedHat)
-
Motores de computação: CPU/GPU
-
OCR: UiPath Document OCR CPU/UiPath Document OCR GPU
|
Núcleos da CPU |
RAM (GB) |
RAM de vídeo (GB) | HDD (GB) |
---|---|---|---|---|
UiPath CPU |
4 |
4 |
50 | |
UiPath GPU |
1 |
4 |
8 |
50 |
Requisitos de software
Sistema operacional Linux
Se você instalar o produto em uma VM na nuvem, os seguintes sistemas operacionais serão suportados:
Software |
Versões |
---|---|
Ubuntu |
20.04 LTS 18.04 LTS 16.04 LTS |
RHEL |
7.x |
Se você instalar o produto em uma máquina em um datacenter local, os seguintes sistemas operacionais serão suportados:
Software |
Versões |
---|---|
Ubuntu |
20.04 LTS 18.04 LTS 16.04 LTS |
RHEL |
7.x |
Sistema operacional Windows
Consulte o site oficial do Docker para obter a lista de sistemas operacionais Windows suportados.
No Windows, sua máquina requer a virtualização esteja habilitada. É altamente recomendável que isso seja feito apenas em máquinas físicas, como laptops ou estações de trabalho desktop. Não oferecemos suporte à execução no Docker no Windows em máquinas virtuais (nuvem ou datacenter) usando virtualização aninhada.
Navegadores
Software |
Versões |
---|---|
Google Chrome |
50+ |
Configuração de rede
-
O Data Manager precisa de acesso ao mecanismo de OCR
<IP>:<port_number>
. O mecanismo de OCR pode ser UiPath Document OCR local, Google Cloud Vision OCR, Microsoft Read Azure, Microsoft Read local. -
Os robôs precisam ter acesso ao OCR
<IP>:<port_number>
. Mesmas opções de OCR acima. -
Os mecanismos de OCR precisam de acesso ao servidor de licenciamento hospedado pelo UiPath no Azure, na porta 443.
Configuração Mínima de Teste ou Prova de Conceito
Se você deseja servir apenas modelos prontos para uso pré-treinados, pode executar um mecanismo de OCR em seu laptop Windows 10. Certifique-se de que o Docker Desktop tenha 8G de RAM disponíveis.
Se quiser tentar treinar um modelo personalizado como uma demonstração em um pequeno volume de dados (menos de 100 documentos), poderá executar o mecanismo de OCR em um ambiente com limite de 4 GB de RAM. Para casos pequenos como esse, uma GPU para o mecanismo de OCR pode não ser necessária.
Pré-requisitos
linkMecanismos de OCR são aplicativos em contêiner executados no Docker. Você não pode executá-los na mesma máquina que o AI Center local. Para executá-los em uma máquina separada, os comandos do instalador de pré-requisitos abaixo podem ser usados para configurar o Docker e, opcionalmente, os drivers NVidia. Esses scripts não devem ser executados na máquina em que o AI Center será instalado.
/
na coluna mais à direita:
df -h
df -h
Se o tamanho dessa partição for menor que os requisitos mínimos de armazenamento, consulte a seção Como configurar a pasta de dados do Docker.
Como instalar o Docker
Linux
Siga as instruções da documentação oficial do Docker ou execute este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu
Se esse comando falhar, você tem um sistema operacional Linux incompatível e precisa solicitar que seu TI instale o Docker na máquina seguindo as instruções na documentação oficial do Docker.
Máquinas virtuais (VMs) do Azure
Se você estiver instalando em uma VM no Azure, use este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env cpu --cloud azure
Windows 10
Baixe e instale o Docker Desktop. Em versões atualizadas recentemente do Windows 10, você precisará do WSL2 instalado. Portanto, quando aparecer uma caixa de diálogo dizendo "A instalação do WSL 2 está incompleta", clique no botão Reiniciar.
workdir
para o Data Manager) e incluir o caminho para ele no comando docker run, após o sinalizador -v
. Ao fazer isso no Windows, o Docker Desktop exibirá uma notificação como a abaixo. Você precisa clicar em Compartilhar para continuar.
Como configurar a pasta de dados do Docker (somente Linux)
Preencha o caminho para a pasta onde deseja que o Docker mantenha seus arquivos, execute este comando e reinicie:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --change-mount </path/to/folder>
Folha de referência do Docker
O Docker ajuda a implantar software em Docker "images. Uma instância em execução de uma imagem é chamada de contêiner. Um contêiner pode ser parado, removido, reiniciado, quantas vezes forem necessárias, desde que a imagem esteja disponível.
Após a imagem ser removida, ele é perdido. A única maneira de recuperá-lo é puxá-lo novamente do registro de onde veio, se ainda estiver disponível lá.
–v
e –p
, respectivamente.
Na tabela abaixo, você pode encontrar uma lista de comandos comuns para a linha de comando do Docker.
Clique aqui para obter a lista completa de comandos básicos do Docker.
Command |
Description |
---|---|
|
Faça login em um registro. |
|
Baixe uma imagem de um registro. A tag mais recente é comumente usada para se referir à versão mais recente de uma imagem. |
OU
|
Execute uma imagem no modo desassociado, enquanto mapeia a porta 80 de dentro do contêiner para a porta 5000 na máquina host e <container folder> para <host folder>. O modo desassociado significa que o contêiner não bloqueia o terminal, portanto, você pode realizar outras operações no mesmo terminal. |
|
Liste imagens presentes no seu sistema. |
|
Liste todos os contêineres (em execução e parados). O ID do contêiner é usado para se referir a esse contêiner quando é necessário pará-lo ou removê-lo, por exemplo. |
|
Pare o contêiner Este comando não remove o contêiner, mas é necessário antes de removê-lo. |
"
docker rm <container id> "
|
Remova o contêiner O contêiner deve ser interrompido de antemão. |
|
Exiba os logs do contêiner. |
|
Remova uma ou mais imagens do sistema. Isso ajuda a economizar espaço de armazenamento, pois as imagens podem ocupar muito espaço. |
|
Remova todos os contêineres parados |
Folha de referência do terminal Linux
Command |
Description |
---|---|
|
Execute um comando como administrador. Tente isso sempre que você receber o erro de Permissão Negada. |
|
Exiba informações sobre as interfaces de rede em seu sistema. Encontre o IP da sua máquina nas seções eth0 ou docker0. |
|
Exiba o caminho para a pasta atual. |
|
Liste o conteúdo de um diretório. |
|
Acesse uma pasta diferente. |
|
Crie uma nova pasta. |
(Opcional) Instalação da máquina GPU
Linux
Execute este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu
Em alguns sistemas executando o comando duas vezes ou uma reinicialização do sistema pode ser necessária para instalar todos os requisitos.
Específico do Azure: para usar as máquinas virtuais da série NV, você precisa instalar o driver NVIDIA antes de executar o comando acima ou pode usar uma extensão de driver do Azure para instalar o driver NVIDIA necessário de acordo com esse modelo de GPU de camada.
Máquinas virtuais (VMs) do Azure
Se você estiver instalando em uma VM no Azure, use este comando:
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
curl -fsSL https://raw.githubusercontent.com/UiPath/Infrastructure/master/ML/du_prereq_installer.sh | sudo bash -s -- --env gpu --cloud azure
Instalação
linkUiPath Document OCR
O UiPath Document OCR é uma tecnologia de OCR proprietária da UiPath, suportando caracteres usados pelos seguintes idiomas de script latino: inglês, francês, alemão, italiano, português, romeno e espanhol. O texto em outros idiomas será reconhecido, mas sem acentos, por exemplo, “Ł” em polonês será reconhecido como “L”. As páginas processadas usando o UiPath Document OCR não são contadas para a cota de página adquirida com a licença Document Understanding Enterprise, portanto, o UiPath Document OCR pode ser usado gratuitamente.
O UiPath Document OCR está disponível com os seguintes tipos de implantação:
- URLs públicos na nuvem - mais detalhes na página Pontos de extremidade públicos
- no local (incluindo air-gapped) usando o pacote de atividades UiPath.DocumentUnderstanding.OCR.LocalServer (não requer acesso à Internet)
- contêiner docker autônomo regular local (requer acesso à Internet)
- contêiner docker autônomo local e isolado/air-gapped (não requer acesso à Internet)
- no local como Habilidade de ML na implantação regular do AI Center (requer acesso à Internet)
- no local como Habilidade de ML na implantação isolada/air-gapped do AI Center (não requer acesso à Internet)
-
Para instalar o contêiner docker autônomo do UiPath Document OCR, execute estes comandos:
docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest
docker login aiflprodweacr.azurecr.io -u *** -p **docker pull aiflprodweacr.azurecr.io/uipath-ocr:latest -
Execute usando CPUs
docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
docker run -d -p 5000:80 aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept -
Execute usando GPU
docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept
docker run -d -p 5000:80 --gpus all aiflprodweacr.azurecr.io/uipath-ocr:latest LicenseAgreement=accept -
No AI Center, ao criar um Pacote de ML, na parte inferior da tela há a seção de configuração de OCR opcional, na qual você pode definir o tipo de mecanismo de OCR do lado do servidor, o URL de OCR e a chave de OCR. A chave de OCR é a chave da API que você obtém na seção Licenças de sua conta do Automation Cloud. Esta é a configuração de OCR que será usada pela atividade MachineLearning Extractor se você marcar a caixa "UseServerSideOCR". Esta caixa está desmarcada por padrão e, nesse caso, o extrator usará o OCR na atividade Digitize Document.
Importante: o contêiner UiPath Document OCR não pode ser executado na mesma máquina que o AI Center On-Premises.
Google Cloud OCR
O ponto de extremidade pode ser obtido na documentação do Google Cloud Platform. O ApiKey pode ser obtido no console do Google Cloud Platform se você tiver um serviço do Google Cloud Vision em sua assinatura.
Microsoft Read
No caso dos serviços do Azure, você precisa fornecer o Endpoint e o ApiKey.
No caso de endpoints de contêiner locais, a chave de API não é necessária.
Configurando o serviço OCR no Data Manager e nos Pacotes de ML do Document Understanding no AI Center
linkA tabela abaixo mostra como configurar os seis tipos de mecanismo OCR suportados no Data Manager e no AI Center.
Mecanismo OCR |
Método de OCR |
Chave de OCR |
URL de OCR |
---|---|---|---|
UiPath |
UiPath Document OCR |
UiPath Automation Cloud Chave de API do Document Understanding Plano Enterprise |
|
|
Google Cloud Vision OCR |
Chave da API do Console do GCP |
|
Microsoft Read 2.0 On-Prem |
Microsoft Read OCR |
Nenhum |
|
Microsoft Read 2.0 Azure |
Microsoft Read OCR |
Chave de API para seu recurso do Portal do Azure |
|
Microsoft Read 3.2 On-Prem |
Microsoft Read OCR |
Nenhum |
|
Microsoft Read 3.2 Azure |
Microsoft Read OCR |
Chave de API para seu recurso do Portal do Azure |
|
- Sobre os serviços de OCR
- Requisitos
- Requisitos de Hardware
- Requisitos de software
- Configuração de rede
- Configuração Mínima de Teste ou Prova de Conceito
- Pré-requisitos
- Como instalar o Docker
- Como configurar a pasta de dados do Docker (somente Linux)
- Folha de referência do Docker
- Folha de referência do terminal Linux
- (Opcional) Instalação da máquina GPU
- Instalação
- UiPath Document OCR
- Google Cloud OCR
- Microsoft Read
- Configurando o serviço OCR no Data Manager e nos Pacotes de ML do Document Understanding no AI Center