- Introdução
- Componentes do framework
- Document Understanding no AI Center
- Pipelines
- Pacotes de ML
- Gerenciador de Dados
- Serviços de OCR
- Licenciamento
- Referências
Guia do usuário do Document Understanding.
Classificador baseado em palavra-chave
O Classificador baseado em palavras-chave é um classificador simples que busca sequências de strings repetidas dentro de um determinado arquivo, a fim de realizar a classificação de documentos.
O algoritmo é construído em torno do conceito de títulos de documentos e parte da premissa de que os tipos de documentos com títulos geralmente têm uma variação relativamente baixa na aparência desses títulos nos documentos.
Ao classificar um arquivo em um tipo de documento, o classificador baseado em palavras-chave:
- encontra a melhor string correspondente ou coleção de strings, a partir de seus dados de aprendizado, que se aplicam a um tipo de documento de taxonomia. A confiança é calculada com base em:
- quão próxima é a correspondência do início do documento,
- quantas vezes a correspondência foi confirmada por trabalhadores do conhecimento e reforçada nos dados de aprendizagem.
- relatórios sobre o tipo de documento de pontuação mais alta, com a configuração correspondente subjacente.
O classificador baseado em palavras-chave pode funcionar com uma única entrada de string (uma string que é considerada como uma entrada nos dados de aprendizado que o classificador está usando) ou com uma entrada contendo várias strings (duas ou mais strings que formam uma única entrada). No caso de strings múltiplas, o Classificador aplica o algoritmo correspondente a cada string individualmente e então calcula uma média simples das confianças das correspondências identificadas.
Vamos analisar o exemplo abaixo:
- se uma entrada contiver uma única string, por exemplo, "esta é minha correspondência", então o Classificador baseado em palavras-chave pesquisa e classifica essa string como uma possível correspondência de tipo de documento (de acordo com o tipo de documento ao qual a string é atribuída).
- se uma entrada contiver três strings, por exemplo, ["isto é uma correspondência", "precisa de mais evidências para filtragem", "mais uma"], o Classificador baseado em palavras-chave pesquisa e classifica cada uma das três strings e, em seguida, calcula uma média simples das confianças correspondentes para relatórios.
Você deve considerar usar este classificador se:
- seus arquivos contêm um e apenas um tipo de documento cada (portanto, nenhuma divisão de arquivo é necessária);
- seus arquivos contêm evidências relacionadas ao tipo de documento nas três primeiras páginas do arquivo.
Não há requisitos especiais para usar o Classificador baseado em palavras-chave.
Você pode configurar o Classificador baseado em Palavra-chave no momento do projeto, simplesmente acessando o assistente Gerenciar aprendizado da atividade. O mesmo assistente pode ser usado para revisar os dados coletados durante a fase de treinamento de classificação de documentos, abrindo o mesmo assistente com um caminho de arquivo de aprendizagem atualizado.
Este assistente permite configurar e gerenciar as palavras-chave utilizadas por esta atividade para identificar o tipo de documento. Ele foi criado para atender a necessidade de editar um caminho de arquivo. Se um parâmetro Dados de Aprendizado com uma variável for usado, você será perguntado se deseja editar um caminho de arquivo específico ou anular esta operação.
O assistente tem o número de categorias de tipo de documento definidas em sua taxonomia. Você pode adicionar uma ou várias palavras-chave para cada tipo de documento. A atividade aprende as palavras-chave de um documento específico e posteriormente é capaz de identificar e classificar o documento em um tipo específico com base nessas regras.
""
(aspas), e você pode adicionar valores únicos ou múltiplos.
- Clicar no botão Adicionar novo conjunto de palavra-chave adiciona um campo extra a essa categoria.
- Clicar no botão remove o campo e suas palavras-chave.
-
Clique no botão Salvar para salvar a configuração do assistente. Você pode encontrar todos os valores adicionados no arquivo
.json
do projeto.Observação: as aspas duplas inseridas como parte de uma palavra-chave no assistente Gerenciar palavras-chave sempre têm caractere de escape de acordo com a convenção do Visual Basic (aspas duplas), mesmo em um projeto com sabor C#.
Coloque a atividade Keyword Based Classifier Trainer em um Train Classifiers Scope e configure adequadamente.
Para mais informações, consulte o Document Classification Training.