- Introdução
- Configuração e Instalação
- Mapeamento de dados
- Privacidade de dados
Guia do usuário do Clipboard AI
Extratores de dados
Os extratores de dados podem ser usados para recuperar as informações relevantes de vários documentos e outras fontes.
Ao falar sobre tipos de documentos, há três categorias principais:
- Documentos estruturados - têm um formato fixo e são fáceis de processar, orientando você a preencher os dados necessários em campos precisos. Esses documentos são projetados para abranger um certo tipo de dados. Exemplos de documentos estruturados: formulários de impostos, pesquisas, questionários etc.
- Documentos semiestruturados - têm tanto um formato fixo quanto partes variáveis. Os documentos semi-estruturados não têm um formato fixo no sentido de que não estão associados a campos de dados especificados, como documentos estruturados, mas contêm um conjunto previsível de informações; por exemplo, uma fatura sempre contém um identificador exclusivo, uma data ou um número de fatura, mas o posicionamento pode variar dependendo do provedor. Esses documentos contêm principalmente pares de label:value e também podem conter parágrafos. Exemplo de documentos semi-estruturados: faturas, recibos, ordens de compra, contas de serviços públicos etc.
- Documentos não estruturados - as informações não estão organizadas de acordo com um formato fixo. Esses documentos contêm principalmente texto simples; a maior parte dos dados está em forma não estruturada dentro do texto. Exemplos de documentos não estruturados: contratos, emails, registros de saúde etc.
Os extratores de dados podem diferir com base em como extraem dados de documentos. A esse respeito, há dois tipos de extratores:
- Extratores de saída fixa - treinados para extrair um conjunto predefinido de informações de um documento; por exemplo, o extrator de Fatura sempre tenta extrair o nome da empresa, endereço, soma total etc.
- Extratores de respostas a perguntas - treinados para responder a perguntas com base em um determinado contexto. Esses extratores dependem do entendimento de linguagem natural para analisar o texto e descobrir qual é o valor exato que precisa ser extraído do texto e fornecer uma resposta apropriada ou até mesmo escolher uma opção em uma lista de opções dadas.
O Clipboard AI usa o seguinte conjunto de extratores de dados:
-
Extrator universal
- Extratores de Documentos específicos
- Extrator de Texto simples
- Extrator de Tabelas e pares de nomes-valores
O extrator Universal é a opção padrão para extrair dados dos seus documentos. Ele verifica seus dados (textos simples ou tabulares) e decide a melhor solução para extraí-los. Ele usa uma combinação dos extratores existentes e também permite consultas para encontrar a melhor correspondência em seus dados.
Saiba como interagir com o extrator Universal.
Os extratores de Documentos específicos são um conjunto de extratores de saída fixa treinados em tipos de documentos específicos. Cada tipo de documento é extraído usando seu modelo correspondente de machine learning do Document Understanding, da seguinte forma:
- Fatura
- Passaporte
- Recibo
- Cartão de Identificação
- Formulário W-2
- Conta de serviço
- Ordem de compra
- Formulários Web/desktop
Você pode selecionar o modelo preferido do Document Understanding com base no seu tipo de documento.
O extrator de Texto simples é um extrator de respostas a perguntas que usa o GPT3 para recuperar dados de documentos de texto simples, páginas da web, emails etc. Ele pode ser usado para documentos semiestruturados para lidar com as partes variáveis ou para documentos não estruturados em que o layout é irrelevante.
Esse extrator é compatível com o entendimento semântico e, além de respostas a perguntas, tem outros recursos avançados, como resumo, tradução de máquina, classificação do tipo de documento e detecção de sentimentos.