Guia do usuário do Document Understanding.

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 11 de nov de 2024

Introdução

O framework UiPath Document Understanding facilita o processamento de arquivos recebidos, desde a digitalização até a validação de dados extraídos, tudo em um ambiente aberto, extensível e versátil.

O Document Understanding foi projetado para ajudar você a combinar diferentes abordagens para extrair informações de vários tipos de documentos. O principal objetivo é tornar o processo de extração de dados o mais fácil possível: criar um único fluxo de trabalho que extrairá dados de vários documentos.

Antes de usar a estrutura do Document Understanding, é recomendável entender os seguintes componentes do framework Document Understanding:

Taxonomia Quais documentos precisam ser processados e quais dados são exigidos deles? Usado para definir os tipos de documentos e as informações destinadas à extração de dados (campos) para cada tipo de documento e formaliza essas informações em uma estrutura de taxonomia dedicada. Essas informações de metadados são gerenciadas através do Gerenciador de Taxonomia.
Digitalização O que este arquivo contém? Usado para obter o conteúdo textual e a estrutura do documento de entrada, transformando um arquivo em conteúdo legível por máquina para que possa ser processado posteriormente.
Que tipos de documentos da taxonomia são encontrados neste arquivo? Usado para determinar automaticamente quais tipos de documentos são encontrados em um arquivo digitalizado.
A classificação prevista está correta? É assim que é possível revisá-la e corrigi-la. Usado para auxiliar na validação manual e correção dos resultados de classificação automática e divisão de documentos.
O humano revisou os dados? É assim que o robô pode aprender com isso. Usado para passar as informações validadas por humanos de volta para os classificadores, para usá-las para melhorar suas previsões futuras.
Extração de Dados Quais dados podem ser encontrados neste documento específico? Usado para capturar as informações necessárias para o tipo de documento identificado, dentro do documento de entrada fornecido e intervalo de páginas de classificação.
Validação de extração de dados As informações extraídas estão corretas? É assim que é possível revisá-las e corrigi-las. Usado para auxiliar na validação manual e correção dos resultados de dados extraídos automaticamente.
Treinamento em extração de dados O humano revisou os dados? É assim que o robô pode aprender com isso. Usado para passar os dados extraídos validados por humanos de volta para os extratores, para usá-los para melhorar suas previsões de extração.
Consumo de dados Usado para exportar os dados validados para consumi-los.
Lógica de medição e carregamento Usado para explicar o consumo de unidades por página para cada serviço disponível.

O diagrama abaixo apresenta os componentes do Framework Document Understanding e como se relacionam entre si:

O framework Document Understanding é encontrado no pacote UiPath.IntelligentOCR.Activities. Depois que o pacote UiPath.IntelligentOCR.Activities é instalado, o assistente do Gerenciador de Taxonomia aparece na faixa superior do UiPath Studio. Este mesmo pacote contém todas as atividades principais do framework Document Understanding.

As atividades de escopo (Classify Document Scope, Data Extraction Scope, Train Classifiers Scope, Train Extractors Scope) que fazem parte do framework Document Understanding permitem que você use qualquer classificação de documento e algoritmos de extração de dados que se adequam ao seu caso de uso e, em seguida, treinam esses algoritmos.

O framework Document Understanding pode ser usado não apenas com os classificadores e extratores prontos para uso, mas também com quaisquer outros personalizados. Estes podem ser criados usando as classes abstratas do pacote e podem ser implementados como atividades de classificação ou extração de dados. Mecanismos de OCR personalizados também podem ser criados usando as classes abstratas do pacote.