- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Classificador baseado em palavra-chave
O Classificador baseado em palavras-chave é um classificador simples que busca sequências de strings repetidas dentro de um determinado arquivo, a fim de realizar a classificação de documentos.
O algoritmo é construído em torno do conceito de títulos de documentos e parte da premissa de que os tipos de documentos com títulos geralmente têm uma variação relativamente baixa na aparência desses títulos nos documentos.
Ao classificar um arquivo em um tipo de documento, o classificador baseado em palavras-chave:
-
encontra a melhor string correspondente ou coleção de strings, a partir de seus dados de aprendizado, que se aplicam a um tipo de documento de taxonomia. A confiança é calculada com base em:
- quão próxima é a correspondência do início do documento,
- quantas vezes a correspondência foi confirmada por trabalhadores do conhecimento e reforçada nos dados de aprendizagem.
- relatórios sobre o tipo de documento de pontuação mais alta, com a configuração correspondente subjacente.
O classificador baseado em palavras-chave pode funcionar com uma única entrada de string (uma string que é considerada como uma entrada nos dados de aprendizado que o classificador está usando) ou com uma entrada contendo várias strings (duas ou mais strings que formam uma única entrada). No caso de várias sequências, o Classificador aplica o algoritmo de correspondência em cada sequência individualmente e, em seguida, calcula uma média simples das confianças das correspondências identificadas.
Vamos analisar o exemplo abaixo:
- se uma entrada contiver uma única string, por exemplo, "esta é minha correspondência", então o Classificador baseado em palavras-chave pesquisa e classifica essa string como uma possível correspondência de tipo de documento (de acordo com o tipo de documento ao qual a string é atribuída).
- se uma entrada contiver três strings, por exemplo, ["isto é uma correspondência", "precisa de mais evidências para filtragem", "mais uma"], o Classificador baseado em palavras-chave pesquisa e classifica cada uma das três strings e, em seguida, calcula uma média simples das confianças correspondentes para relatórios.
O conjunto de palavras-chave pode ser definido em uma linha ou usando várias linhas. Quando definido dentro de uma linha, identifica a entrada fornecida, por exemplo, se x, y e z estiverem listados como palavras-chave, a pesquisa irá procurar por x e y e z.
Ter várias linhas definidas significa que a pesquisa procura as palavras-chave listadas na primeira linha, ou na segunda linha, ou na terceira até cobrir todas as linhas e identificar as melhores correspondências, aumentando assim a pontuação de confiança simplesmente por ter identificado mais correspondências de mais palavras-chave disponíveis.
Você deve considerar usar este classificador se:
- seus arquivos contêm um e apenas um tipo de documento cada (portanto, nenhuma divisão de arquivo é necessária);
- seus arquivos contêm evidências relacionadas ao tipo de documento nas três primeiras páginas do arquivo.
Não há requisitos especiais para usar o Classificador baseado em palavras-chave.
Para obter mais informações sobre como treinar um Classificador, consulte esta página que descreve o processo de uso do assistente Gerenciar Aprendizagem.