UiPath Documentation
document-understanding
2.2510
true
Importante :
A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.
UiPath logo, featuring letters U and I in white

Guia do usuário do Document Understanding.

Última atualização 15 de abr de 2026

Classificador baseado em palavra-chave

O que é classificador baseado em palavras-chave

The Keyword Based Classifier is a simple classifier that searches for repeating string sequences within a given file, in order to perform document classification.

O algoritmo é construído em torno do conceito de títulos de documentos e parte da premissa de que os tipos de documentos com títulos geralmente têm uma variação relativamente baixa na aparência desses títulos nos documentos.

Ao classificar um arquivo em um tipo de documento, o classificador baseado em palavras-chave:

  • encontra a melhor string correspondente ou coleção de strings, a partir de seus dados de aprendizado, que se aplicam a um tipo de documento de taxonomia. A confiança é calculada com base em:
    • quão próxima é a correspondência do início do documento,
    • quantas vezes a correspondência foi confirmada por trabalhadores do conhecimento e reforçada nos dados de aprendizagem.
  • relatórios sobre o tipo de documento de pontuação mais alta, com a configuração correspondente subjacente.

O classificador baseado em palavras-chave pode funcionar com uma única entrada de string (uma string que é considerada como uma entrada nos dados de aprendizado que o classificador está usando) ou com uma entrada contendo várias strings (duas ou mais strings que formam uma única entrada). No caso de várias sequências, o Classificador aplica o algoritmo de correspondência em cada sequência individualmente e, em seguida, calcula uma média simples das confianças das correspondências identificadas.

Exemplo

Vamos considerar o seguinte exemplo:

  • if an entry contains a single string, for instance, "this is my match", then the Keyword Based Classifier searches and rates this string as a potential document type match (according to which document type the string is attributed to).
  • if an entry contains three strings, for instance, ["this is a match", "needs more evidence for filtering", "yet another one"], then the Keyword Based Classifier searches and rates each one of the three strings, and then computes a simple average of the matching confidences for reporting.

O conjunto de palavras-chave pode ser definido em uma linha ou usando várias linhas. Quando definido dentro de uma linha, identifica a entrada fornecida, por exemplo, se x, y e z estiverem listados como palavras-chave, a pesquisa irá procurar por x e y e z.

Ter várias linhas definidas significa que a pesquisa procura as palavras-chave listadas na primeira linha, ou na segunda linha, ou na terceira até cobrir todas as linhas e identificar as melhores correspondências, aumentando assim a pontuação de confiança simplesmente por ter identificado mais correspondências de mais palavras-chave disponíveis.

Quando usar

Você deve considerar usar este classificador se:

  • seus arquivos contêm um e apenas um tipo de documento cada (portanto, nenhuma divisão de arquivo é necessária);
  • seus arquivos contêm evidências relacionadas ao tipo de documento nas três primeiras páginas do arquivo.

Requisitos especiais

Não há requisitos especiais para usar o Classificador baseado em palavras-chave.

For more information on how to train a Classifier, check this page that describes the process of using the Manage Learning wizard.

  • O que é classificador baseado em palavras-chave
  • Exemplo
  • Quando usar
  • Requisitos especiais

Esta página foi útil?

Conectar

Precisa de ajuda? Suporte

Quer aprender? Academia UiPath

Tem perguntas? Fórum do UiPath

Fique por dentro das novidades