document-understanding

2021.10

false

Fora do período de suporte

Guia do usuário do Document Understanding.

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 11 de nov de 2024

Intelligent Keyword Classifier

O que é o Classificador inteligente de palavras-chave

O Classificador inteligente de palavras-chave é um classificador que usa o vetor de palavras que aprende a partir de arquivos de certos tipos de documentos para realizar a classificação de documentos.

O algoritmo é construído em torno do conceito de repetição de conteúdo para o mesmo tipo de documento e parte da premissa de que os tipos de documentos possuem uma série de palavras que geralmente ocorrem nesses tipos de documentos, permitindo assim um cálculo de similaridade vetorial.

Ao classificar um arquivo em um tipo de documento, o Classificador inteligente de palavras-chave:

encontra o vetor de palavras mais próximo ao qual um arquivo é mais semelhante,
reporta sobre o tipo de documento de pontuação mais alta, com as palavras principais correspondentes subjacentes.

O Classificador inteligente de palavras-chave também possui recursos de divisão de arquivos, o que significa que ele pode relatar mais de uma classe para um determinado arquivo, para intervalos de páginas separados.

Quando usar

Você deve considerar usar este classificador se:

seus arquivos contêm um ou mais tipos de documentos em um único arquivo
seus tipos de documento são relativamente fáceis de diferenciar no que diz respeito ao conteúdo.

Requisitos especiais

Você precisa usar sua chave de API do Automation Cloud Document Understanding ou hospedar sua própria instância do Classificador inteligente de palavras-chave no AI Center no local para usar este classificador.

Como configurar no tempo de design

Você pode configurar o Intelligent Keyword Classifier em tempo de design, simplesmente acessando o assistente Manage Learning da atividade. O mesmo assistente pode ser usado para revisar os dados coletados durante a fase de treinamento de classificação de documentos, abrindo o mesmo assistente com um caminho de arquivo de aprendizagem atualizado.

Este assistente permite configurar e gerenciar os dados de treinamento usados por esta atividade para identificar o tipo de documento e classificar os documentos. Ele foi criado para atender a necessidade de editar um caminho de arquivo. Se uma opção de Dados de Aprendizagem com uma variável for usada, você será perguntado se deseja editar um caminho de arquivo específico ou abortar esta operação.

Observação: o assistente de Gerenciar aprendizado só funciona quando a atividade é configurada com um string de Caminho do arquivo de aprendizagem. Não funciona com o Caminho do arquivo de aprendizagem definido como variável ou com um string DadosDeAprendizado.

Adicione uma atividade Intelligent Keyword Classifier/Intelligent Keyword Classifier Trainer ao seu fluxo de trabalho.
Configure sua atividade Intelligent Keyword Classifier incluindo o caminho de um arquivo .json.
- Se nenhum caminho for fornecido e a opção Gerenciar aprendizado for clicada, então um pop-up será exibido solicitando uma entrada de Aprendizado de caminho de arquivo. Assim que o caminho for fornecido, o assistente será aberto.
- Uma variável pode ser adicionada em vez de um arquivo .json, mas, como o assistente não pode aplicar o padrão de aprendizado a uma variável DadosDeAprendizado, ele solicita um caminho de arquivo específico que pode ser editado.
Clique na opção Gerenciar Aprendizagem.
- A Janela do Assistente é exibida.
Se nenhum caminho for fornecido e a opção Gerenciar aprendizado for clicada, então um pop-up será exibido solicitando um Aprendizado de caminho de arquivo. Assim que o caminho for fornecido, o assistente será aberto.

Observação: mesmo que nenhum arquivo .json esteja disponível, você pode adicionar o nome de um novo arquivo .json diretamente na atividade e o arquivo .json é criado automaticamente dentro da pasta especificada.

A captura de tela abaixo apresenta um tipo de documento que foi treinado, um que não foi e um que foi treinado e acessado para ser visualizado ou excluído.

Para tipos de documentos que ainda não foram treinados, o treinamento em tempo de design pode ser executado usando a opção Iniciar treinamento. Para os tipos de documentos que já possuem algum treinamento, você pode excluí-los para recomeçar, usando esta opção , ou realizar um treinamento extra (cumulativo ao já existente) usando a opção editar .

Observação: arquivos de treinamento a serem usados devem conter uma única instância de tipo de documento por arquivo. Não execute treinamento em tempo de design em arquivos que contenham dois ou mais tipos de documento, pois seus dados de treinamento estarão incorretos.

Após iniciado um novo treinamento, uma nova tela é exibida solicitando os arquivos de treinamento e o mecanismo de OCR que deve ser usado.

Cada mecanismo de OCR vem com seu próprio conjunto de opções personalizadas. Confira aqui mais detalhes sobre todas as opções disponíveis para cada mecanismo de OCR.

Observação:

Os seguintes mecanismos de OCR não suportam documentos rotacionados e não devem ser usados para processar tais documentos:

Microsoft OCR
Tesseract OCR

Somente dados de treinamento de tipos de documento que foram treinados são elegíveis para exportação.Os tipos de documento que não foram treinados não podem ser selecionados.

Exportando dados de treinamento

Você pode exportar dados de treinamento seguindo estas etapas:

Selecione os tipos de documento que foram treinados.
Clique no botão Exportar.
Se houver alterações não salvas, a seguinte mensagem será exibida.
Clique em Sim.
Salve o arquivo de dados de treinamento com o nome desejado.
Uma mensagem é exibida informando quantos conjuntos de dados de treinamento de tipo de documento foram exportados. Por exemplo:
Clique em OK para retornar à tela principal do assistente.

Importando dados de treinamento

Você pode importar dados de treinamento seguindo estas etapas:

Clique no botão Importar.
Selecione o arquivo de dados de treinamento e clique em Abrir.
Selecione os tipos de documento que você deseja.
Clique no botão Importar.
Os dados de treinamento são importados.

A tabela abaixo explica cada mensagem exibida ao importar dados de treinamento:

Import Type	Mensagem exibida
Novo tipo de documento e vetores do Word	Este tipo de documento será adicionado à taxonomia
Novo vetor do Word (nenhum foi definido anteriormente)	N/A
Mesmo tipo de documento e vetor do Word	O vetor de palavra para este tipo de documento será substituído

Como treinar

Coloque a atividade Intelligent Keyword Classifier Trainer em um Train Classifiers Scope e configure-o adequadamente.

Não podemos impor a consistência do arquivo de treinamento em treinamentos paralelos ao nível de atividade. Duas soluções possíveis para este problema são fornecidas pelo Document Understanding Process. Ambos consistem em controle de tráfego:

arquivos de bloqueio (implementado por padrão no processo): renomeie o arquivo usando a extensão .lock, modifique e salve o arquivo, depois renomeie o arquivo novamente, removendo a extensão .lock
configuração manual de uma fila especial: crie uma fila vazia no Orchestrator e integre suas duas atividades do projeto.

Para obter mais informações sobre como treinar um classificador, consulte Treinamento de Classificação de Documentos.

Nesta página