- Introdução
- Componentes do framework
- Pacotes de ML
- Pipelines
- Gerenciador de Dados
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Aprendizagem profunda
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guia do usuário do Document Understanding.
Classificador baseado em palavra-chave
O Classificador baseado em palavras-chave é um classificador simples que busca sequências de strings repetidas dentro de um determinado arquivo, a fim de realizar a classificação de documentos.
O algoritmo é construído em torno do conceito de títulos de documentos e parte da premissa de que os tipos de documentos com títulos geralmente têm uma variação relativamente baixa na aparência desses títulos nos documentos.
Ao classificar um arquivo em um tipo de documento, o classificador baseado em palavras-chave:
-
encontra a melhor string correspondente ou coleção de strings, a partir de seus dados de aprendizado, que se aplicam a um tipo de documento de taxonomia. A confiança é calculada com base em:
- quão próxima é a correspondência do início do documento,
- quantas vezes a correspondência foi confirmada por trabalhadores do conhecimento e reforçada nos dados de aprendizagem.
- relatórios sobre o tipo de documento de pontuação mais alta, com a configuração correspondente subjacente.
O classificador baseado em palavras-chave pode funcionar com uma única entrada de string (uma string que é considerada como uma entrada nos dados de aprendizado que o classificador está usando) ou com uma entrada contendo várias strings (duas ou mais strings que formam uma única entrada). No caso de várias sequências, o Classificador aplica o algoritmo de correspondência em cada sequência individualmente e, em seguida, calcula uma média simples das confianças das correspondências identificadas.
Vamos analisar o exemplo abaixo:
- se uma entrada contiver uma única string, por exemplo, "esta é minha correspondência", então o Classificador baseado em palavras-chave pesquisa e classifica essa string como uma possível correspondência de tipo de documento (de acordo com o tipo de documento ao qual a string é atribuída).
- se uma entrada contiver três strings, por exemplo, ["isto é uma correspondência", "precisa de mais evidências para filtragem", "mais uma"], o Classificador baseado em palavras-chave pesquisa e classifica cada uma das três strings e, em seguida, calcula uma média simples das confianças correspondentes para relatórios.
O conjunto de palavras-chave pode ser definido em uma linha ou usando várias linhas. Quando definido dentro de uma linha, identifica a entrada fornecida, por exemplo, se x, y e z estiverem listados como palavras-chave, a pesquisa irá procurar por x e y e z.
Ter várias linhas definidas significa que a pesquisa procura as palavras-chave listadas na primeira linha, ou na segunda linha, ou na terceira até cobrir todas as linhas e identificar as melhores correspondências, aumentando assim a pontuação de confiança simplesmente por ter identificado mais correspondências de mais palavras-chave disponíveis.
Você deve considerar usar este classificador se:
- seus arquivos contêm um e apenas um tipo de documento cada (portanto, nenhuma divisão de arquivo é necessária);
- seus arquivos contêm evidências relacionadas ao tipo de documento nas três primeiras páginas do arquivo.
Não há requisitos especiais para usar o Classificador baseado em palavras-chave.
Você pode configurar o Classificador baseado em Palavra-chave no momento do projeto, simplesmente acessando o assistente Gerenciar aprendizado da atividade. O mesmo assistente pode ser usado para revisar os dados coletados durante a fase de treinamento de classificação de documentos, abrindo o mesmo assistente com um caminho de arquivo de aprendizagem atualizado.
Este assistente permite configurar e gerenciar as palavras-chave utilizadas por esta atividade para identificar o tipo de documento. Ele foi criado para atender a necessidade de editar um caminho de arquivo. Se um parâmetro Dados de Aprendizado com uma variável for usado, você será perguntado se deseja editar um caminho de arquivo específico ou anular esta operação.
- Adicione uma atividade Keyword Based Classifier/Keyword Based Classifier Trainer ao seu fluxo de trabalho.
- Configure sua atividade Keyword Based Classifier adicionando o caminho de um arquivo
.json
.- Se nenhum caminho for fornecido e a opção Gerenciar aprendizado for clicada, então um pop-up será exibido solicitando uma entrada de Aprendizado de caminho de arquivo. Assim que o caminho for fornecido, o assistente será aberto.
- Uma variável pode ser adicionada em vez de um arquivo
.json
, mas, como o assistente não pode aplicar o padrão de aprendizado a uma variável DadosDeAprendizado, ele solicita um caminho de arquivo específico que pode ser editado.
- Clique na opção Gerenciar Aprendizagem.
- A Janela do Assistente é exibida.
- A Janela do Assistente é exibida.
- Se nenhum caminho for fornecido e a opção Gerenciar aprendizado for clicada, então um pop-up será exibido solicitando um Aprendizado de caminho de arquivo. Assim que o caminho for fornecido, o assistente será aberto.
Observação: mesmo que nenhum arquivo.json
esteja disponível, você pode adicionar o nome de um novo arquivo.json
diretamente na atividade e o arquivo.json
é criado automaticamente dentro da pasta especificada.
O assistente tem o número de categorias de tipo de documento definidas em sua taxonomia. Você pode adicionar uma ou várias palavras-chave para cada tipo de documento. A atividade aprende as palavras-chave de um documento específico e posteriormente é capaz de identificar e classificar o documento em um tipo específico com base nessas regras.
""
(aspas), e você pode adicionar valores únicos ou múltiplos.
- Clicar no botão Adicionar novo conjunto de palavra-chave adiciona um campo extra a essa categoria.
- Clicar no botão remove o campo e suas palavras-chave.
- Clique no botão Salvar para salvar a configuração do assistente. Você pode encontrar todos os valores adicionados no arquivo
.json
do projeto.Observação: as aspas duplas inseridas como parte de uma palavra-chave no assistente Gerenciar palavras-chave sempre têm caractere de escape de acordo com a convenção do Visual Basic (aspas duplas), mesmo em um projeto com sabor C#.
Coloque a atividade Keyword Based Classifier Trainer em um Train Classifiers Scope e configure adequadamente.
Para mais informações, consulte o Document Classification Training.