Document Understanding - Classificador baseado em palavras-chave

document-understanding

2022.4

true

Guia do usuário do Document Understanding.

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Classificador baseado em palavra-chave

O que é classificador baseado em palavras-chave

O Classificador baseado em palavras-chave é um classificador simples que busca sequências de strings repetidas dentro de um determinado arquivo, a fim de realizar a classificação de documentos.

O algoritmo é construído em torno do conceito de títulos de documentos e parte da premissa de que os tipos de documentos com títulos geralmente têm uma variação relativamente baixa na aparência desses títulos nos documentos.

Ao classificar um arquivo em um tipo de documento, o classificador baseado em palavras-chave:

encontra a melhor string correspondente ou coleção de strings, a partir de seus dados de aprendizado, que se aplicam a um tipo de documento de taxonomia. A confiança é calculada com base em:
- quão próxima é a correspondência do início do documento,
- quantas vezes a correspondência foi confirmada por trabalhadores do conhecimento e reforçada nos dados de aprendizagem.
relatórios sobre o tipo de documento de pontuação mais alta, com a configuração correspondente subjacente.

O classificador baseado em palavras-chave pode funcionar com uma única entrada de string (uma string que é considerada como uma entrada nos dados de aprendizado que o classificador está usando) ou com uma entrada contendo várias strings (duas ou mais strings que formam uma única entrada). No caso de várias sequências, o Classificador aplica o algoritmo de correspondência em cada sequência individualmente e, em seguida, calcula uma média simples das confianças das correspondências identificadas.

Exemplo

Vamos analisar o exemplo abaixo:

se uma entrada contiver uma única string, por exemplo, "esta é minha correspondência", então o Classificador baseado em palavras-chave pesquisa e classifica essa string como uma possível correspondência de tipo de documento (de acordo com o tipo de documento ao qual a string é atribuída).
se uma entrada contiver três strings, por exemplo, ["isto é uma correspondência", "precisa de mais evidências para filtragem", "mais uma"], o Classificador baseado em palavras-chave pesquisa e classifica cada uma das três strings e, em seguida, calcula uma média simples das confianças correspondentes para relatórios.

O conjunto de palavras-chave pode ser definido em uma linha ou usando várias linhas. Quando definido dentro de uma linha, identifica a entrada fornecida. Por exemplo, se x, y e z são listados como palavras-chave, então a pesquisa busca por x e y e z.

Ter várias linhas definidas significa que a pesquisa procura as palavras-chave listadas na primeira linha, ou na segunda linha, ou na terceira até cobrir todas as linhas e identificar as melhores correspondências, aumentando assim a pontuação de confiança simplesmente por ter identificado mais correspondências de mais palavras-chave disponíveis.

Quando usar

Você deve considerar usar este classificador se:

seus arquivos contêm um e apenas um tipo de documento cada (portanto, nenhuma divisão de arquivo é necessária);
seus arquivos contêm evidências relacionadas ao tipo de documento nas três primeiras páginas do arquivo.

Saiba mais

Saiba mais sobre o classificador baseado em palavras-chave, seguindo este link.

Nesta página

O que é classificador baseado em palavras-chave
Exemplo
Quando usar
Saiba mais

Esta página foi útil?

AnteriorAssistente para configurar classificadores de Classificar Escopo de Documento

AvançarRequisitos especiais