document-understanding
latest
false
UiPath logo, featuring letters U and I in white
Guia do usuário de projetos modernos do Document Understanding
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 14 de nov de 2024

Recursos fundamentais

Para automatizar o processamento de documentos, quatro recursos fundamentais são necessários: digitalização, classificação, extração e validação.

Figura 1. Recursos fundamentais

Digitalização

A digitalização converte um documento físico em texto legível por máquina, que pode ser processado digitalmente. Embora o Reconhecimento Ótico de Caracteres (OCR) seja uma parte significativa da digitalização, o processo de digitalização é mais complexo e envolve várias etapas, incluindo OCR.

Por exemplo, ao lidar com documentos PDF, o algoritmo de digitalização pode distinguir entre PDFs digitalizados e nativos ou híbridos que contêm imagens digitalizadas e texto nativo. A maior parte do texto pode ser extraída diretamente de um documento PDF nativo mas, algumas vezes, alguns logotipos podem precisar ser lidos usando OCR. O processo de digitalização pode lidar com todas essas situações para garantir a máxima precisão na detecção de texto enquanto está sendo executado de forma rápida e eficiente.

Classificação e divisão

Na maioria dos casos de uso, os documentos precisam ser classificados em categorias lógicas, para que diferentes métodos de processamento possam ser aplicados a eles. O processo de classificação de documentos envolve duas tarefas:
  • Divisão
  • Classificação
Dependendo da complexidade do problema, você pode precisar dividir documentos, classificá-los ou ambos.
Observação: a divisão de documentos só está disponível quando usada com o IntelligentOCR.

O objetivo da divisão é digitalizar as páginas contínuas de um documento e dividi-las em subdocumentos lógicos. Um algoritmo divisor de documentos pode ser agnóstico do tipo de documento, o que significa que ele pode dividir qualquer documento, independentemente de ser uma fatura, um contrato ou um formulário de solicitação.

Figura 2. Divisão de documento docs image

O objetivo de uma classificação é digitalizar um documento e decidir a que tipo de documento ele pertence. Saber o tipo de um documento é importante, pois diferentes tipos de documentos exigem diferentes técnicas de processamento. Por exemplo, uma fatura precisa ser processada por um modelo de extração de fatura para garantir que todos os campos relevantes sejam extraídos.

Figura 3. Classificador de documento docs image

Extração

A extração de dados é o processo de seleção e recuperação apenas das informações relevantes de um documento. A extração de dados específicos de um documento longo usando a manipulação de string pode ser um desafio. No entanto, o Document UnderstandingTM fornece várias metodologias de extração para diferentes tipos e formatos de documentos. Por exemplo, queremos apenas extrair os campos Nome do fornecedor, Nome do faturamento, Data de vencimento e Total de uma fatura.

Figura 4. Extração de dados

Validação

Na classificação e extração, os robôs de software usam o conceito de confiança, que mede o nível de certeza de que uma determinada tarefa foi bem realizada. A tarefa pode estar reconhecendo um tipo de documento, identificando um campo ou lendo os dados contidos nele. Nesses casos, a estrutura do Document Understanding permite que você envolva um usuário humano para revisar e validar a saída do robô. No melhor cenário, a entrada humana é usada para treinar a precisão do robô por meio de machine learning.

  • Digitalização
  • Classificação e divisão
  • Extração
  • Validação

Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo White
Confiança e segurança
© 2005-2024 UiPath. Todos os direitos reservados.