document-understanding

2024.10

true

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Guia do usuário do Document Understanding.

ENTREGA:

Última atualização 3 de out de 2025

Introdução

A estrutura do UiPath® Document Understanding^TM facilita o processamento de arquivos de entrada, desde a digitalização de arquivos até a validação de dados extraídos, tudo em um ambiente aberto, extensível e versátil.

O Document Understanding foi projetado para ajudar você a combinar diferentes abordagens para extrair informações de vários tipos de documentos. O principal objetivo é tornar o processo de extração de dados o mais fácil possível: criar um único fluxo de trabalho que extrairá dados de vários documentos.

Antes de usar a estrutura do Document Understanding, é recomendável entender os seguintes componentes do framework Document Understanding:

Taxonomia Quais documentos precisam ser processados e quais dados são exigidos deles? Usado para definir os tipos de documentos e as informações destinadas à extração de dados (campos) para cada tipo de documento e formaliza essas informações em uma estrutura de taxonomia dedicada. Essas informações de metadados são gerenciadas através do Gerenciador de Taxonomia.
Digitalização O que este arquivo contém? Usado para obter o conteúdo textual e a estrutura do documento de entrada, transformando um arquivo em conteúdo legível por máquina para que possa ser processado posteriormente.
Classificação de Documento Que tipos de documentos da taxonomia são encontrados neste arquivo? Usado para determinar automaticamente quais tipos de documentos são encontrados em um arquivo digitalizado.
Validação da classificação de documentos A classificação prevista está correta? É assim que é possível revisá-la e corrigi-la. Usado para auxiliar na validação manual e correção dos resultados de classificação automática e divisão de documentos.
Treinamento de classificação O humano revisou os dados? É assim que o robô pode aprender com isso. Usado para passar as informações validadas por humanos de volta para os classificadores, para usá-las para melhorar suas previsões futuras.
Extração de Dados Quais dados podem ser encontrados neste documento específico? Usado para capturar as informações necessárias para o tipo de documento identificado, dentro do documento de entrada fornecido e intervalo de páginas de classificação.
Validação de extração de dados As informações extraídas estão corretas? É assim que é possível revisá-las e corrigi-las. Usado para auxiliar na validação manual e correção dos resultados de dados extraídos automaticamente.
Treinamento em extração de dados O humano revisou os dados? É assim que o robô pode aprender com isso. Usado para passar os dados extraídos validados por humanos de volta para os extratores, para usá-los para melhorar suas previsões de extração.
Consumo de dados Usado para exportar os dados validados para consumi-los.
Lógica de medição e carregamento Usado para explicar o consumo de unidades por página para cada serviço disponível.

O diagrama a seguir apresenta os componentes da Estrutura do Document Understanding e como eles se relacionam entre si:

O framework Document Understanding é encontrado no pacote UiPath.IntelligentOCR.Activities . Depois que o pacote UiPath.IntelligentOCR.Activities é instalado, o assistente do Gerenciador de Taxonomia aparece na faixa superior do UiPath Studio. Esse mesmo pacote contém todas as atividades principais do framework Document Understanding.

As atividades de escopo (Classify Document Scope, Data Extraction Scope, Train Classifiers Scope, Train Extractors Scope) que fazem parte do framework Document Understanding permitem que você use qualquer classificação de documento e algoritmos de extração de dados que se adequam ao seu caso de uso e, em seguida, treinam esses algoritmos.

O framework Document Understanding pode ser usado não apenas com os classificadores e extratores prontos para uso, mas também com quaisquer outros personalizados. Eles podem ser criados usando as classes abstratas do pacote UiPath.DocumentProcessing.Contracts e podem ser implementados como atividades de classificação ou extração de dados. Mecanismos de OCR personalizados também podem ser criados usando as classes abstratas do pacote UiPath.OCR.Contracts.