- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Introdução
A estrutura UiPath® Document UnderstandingTM facilita o processamento de arquivos recebidos, desde a digitalização de arquivos até a validação de dados extraídos, tudo em um ambiente aberto, extensível e versátil.
O Document Understanding foi projetado para ajudar você a combinar diferentes abordagens para extrair informações de vários tipos de documentos. O principal objetivo é tornar o processo de extração de dados o mais fácil possível: criar um único fluxo de trabalho que extrairá dados de vários documentos.
Antes de usar a estrutura do Document Understanding, é recomendável entender os seguintes componentes do framework Document Understanding:
- Taxonomia Quais documentos precisam ser processados e quais dados são exigidos deles? Usado para definir os tipos de documentos e as informações destinadas à extração de dados (campos) para cada tipo de documento e formaliza essas informações em uma estrutura de taxonomia dedicada. Essas informações de metadados são gerenciadas através do Gerenciador de Taxonomia.
- Digitalização O que este arquivo contém? Usado para obter o conteúdo textual e a estrutura do documento de entrada, transformando um arquivo em conteúdo legível por máquina para que possa ser processado posteriormente.
- Classificação de Documento Que tipos de documentos da taxonomia são encontrados neste arquivo? Usado para determinar automaticamente quais tipos de documentos são encontrados em um arquivo digitalizado.
- Validação da classificação de documentos A classificação prevista está correta? É assim que é possível revisá-la e corrigi-la. Usado para auxiliar na validação manual e correção dos resultados de classificação automática e divisão de documentos.
- Treinamento de classificação O humano revisou os dados? É assim que o robô pode aprender com isso. Usado para passar as informações validadas por humanos de volta para os classificadores, para usá-las para melhorar suas previsões futuras.
- Extração de Dados Quais dados podem ser encontrados neste documento específico? Usado para capturar as informações necessárias para o tipo de documento identificado, dentro do documento de entrada fornecido e intervalo de páginas de classificação.
- Validação de extração de dados As informações extraídas estão corretas? É assim que é possível revisá-las e corrigi-las. Usado para auxiliar na validação manual e correção dos resultados de dados extraídos automaticamente.
- Treinamento em extração de dados O humano revisou os dados? É assim que o robô pode aprender com isso. Usado para passar os dados extraídos validados por humanos de volta para os extratores, para usá-los para melhorar suas previsões de extração.
- Consumo de dados Usado para exportar os dados validados para consumi-los.
- Lógica de medição e carregamento Usado para explicar o consumo de unidades por página para cada serviço disponível.
O diagrama abaixo apresenta os componentes do Framework Document Understanding e como se relacionam entre si:
O framework Document Understanding é encontrado no pacote UiPath.IntelligentOCR.Activities . Depois que o pacote UiPath.IntelligentOCR.Activities é instalado, o assistente do Gerenciador de Taxonomia aparece na faixa superior do UiPath Studio. Esse mesmo pacote contém todas as atividades principais do framework Document Understanding.
As atividades de escopo (Classify Document Scope, Data Extraction Scope, Train Classifiers Scope, Train Extractors Scope) que fazem parte do framework Document Understanding permitem que você use qualquer classificação de documento e algoritmos de extração de dados que se adequam ao seu caso de uso e, em seguida, treinam esses algoritmos.
O framework Document Understanding pode ser usado não apenas com os classificadores e extratores prontos para uso, mas também com quaisquer outros personalizados. Eles podem ser criados usando as classes abstratas do pacote UiPath.DocumentProcessing.Contracts e podem ser implementados como atividades de classificação ou extração de dados. Mecanismos de OCR personalizados também podem ser criados usando as classes abstratas do pacote UiPath.OCR.Contracts.
Os cursos dedicados ao Document Understanding podem ser encontrados na UiPath RPA Academy.
O Fórum Community da UiPath é o local para obter suporte da nossa comunidade sempre crescente de usuários.