- Introdução
- Componentes do framework
- Document Understanding no AI Center
- Pipelines
- Pacotes de ML
- Gerenciador de Dados
- Serviços de OCR
- Licenciamento
- Referências
Guia do usuário do Document Understanding.
Intelligent Keyword Classifier
O Classificador inteligente de palavras-chave é um classificador que usa o vetor de palavras que aprende a partir de arquivos de certos tipos de documentos para realizar a classificação de documentos.
O algoritmo é construído em torno do conceito de repetição de conteúdo para o mesmo tipo de documento e parte da premissa de que os tipos de documentos possuem uma série de palavras que geralmente ocorrem nesses tipos de documentos, permitindo assim um cálculo de similaridade vetorial.
Ao classificar um arquivo em um tipo de documento, o Classificador inteligente de palavras-chave:
- encontra o vetor de palavras mais próximo ao qual um arquivo é mais semelhante,
- reporta sobre o tipo de documento de pontuação mais alta, com as palavras principais correspondentes subjacentes.
O Classificador inteligente de palavras-chave também possui recursos de divisão de arquivos, o que significa que ele pode relatar mais de uma classe para um determinado arquivo, para intervalos de páginas separados.
Você deve considerar usar este classificador se:
- seus arquivos contêm um ou mais tipos de documentos em um único arquivo
- seus tipos de documento são relativamente fáceis de diferenciar no que diz respeito ao conteúdo.
Você precisa usar sua chave de API do Automation Cloud Document Understanding ou hospedar sua própria instância da atividade Intelligent Keyword Classifier no AI Center On-Premisses para usar este classificador.
Você pode configurar o Intelligent Keyword Classifier em tempo de design, simplesmente acessando o assistente Manage Learning da atividade. O mesmo assistente pode ser usado para revisar os dados coletados durante a fase de treinamento de classificação de documentos, abrindo o mesmo assistente com um caminho de arquivo de aprendizagem atualizado.
Este assistente permite configurar e gerenciar os dados de treinamento usados por esta atividade para identificar o tipo de documento e classificar os documentos. Ele foi criado para atender a necessidade de editar um caminho de arquivo. Se uma opção de Dados de Aprendizagem com uma variável for usada, você será perguntado se deseja editar um caminho de arquivo específico ou abortar esta operação.
A captura de tela abaixo apresenta um tipo de documento que foi treinado, um que não foi e um que foi treinado e acessado para ser visualizado ou excluído.
Para tipos de documentos que ainda não foram treinados, o treinamento em tempo de design pode ser executado usando a opção Iniciar treinamento. Para os tipos de documentos que já possuem algum treinamento, você pode excluí-los para recomeçar, usando esta opção , ou realizar um treinamento extra (cumulativo ao já existente) usando a opção editar .
Arquivos de treinamento fornecidos para o Treinamento em Tempo de Design devem conter tipos de documento único
Arquivos de treinamento a serem usados devem conter uma única instância de tipo de documento por arquivo. Não execute treinamento em tempo de design em arquivos que contenham dois ou mais tipos de documento, pois seus dados de treinamento estarão incorretos.
Após iniciado um novo treinamento, uma nova tela é exibida solicitando os arquivos de treinamento e o mecanismo de OCR que deve ser usado.
Cada mecanismo de OCR vem com seu próprio conjunto de opções personalizadas. Confira aqui mais detalhes sobre todas as opções disponíveis para cada mecanismo de OCR.
Os seguintes mecanismos de OCR não suportam documentos rotacionados e não devem ser usados para processar tais documentos:
- Microsoft OCR
- Tesseract OCR
Somente dados de treinamento de tipos de documento que foram treinados são elegíveis para exportação.Os tipos de documento que não foram treinados não podem ser selecionados.
Você pode exportar dados de treinamento seguindo estas etapas:
- Selecione os tipos de documento que foram treinados.
- Clique no botão Exportar.
-
Se houver alterações não salvas, a seguinte mensagem será exibida.
- Clique em Sim.
- Salve o arquivo de dados de treinamento com o nome desejado.
- Uma mensagem é exibida informando quantos conjuntos de dados de treinamento de tipo de documento foram exportados. Por exemplo:
- Clique em OK. O assistente fecha.
Você pode importar dados de treinamento seguindo estas etapas:
- Clique no botão Importar.
- Selecione o arquivo de dados de treinamento e clique em Abrir.
- Selecione os tipos de documento que você deseja.
- Clique no botão Importar.
- Os dados de treinamento são importados.
A tabela abaixo explica cada mensagem exibida ao importar dados de treinamento:
Import Type |
Mensagem exibida |
---|---|
Novo tipo de documento e vetores do Word |
Este tipo de documento será adicionado à taxonomia |
Novo vetor do Word (nenhum foi definido anteriormente) |
N/A |
Mesmo tipo de documento e vetor do Word |
O vetor de palavra para este tipo de documento será substituído |
Coloque a atividade Intelligent Keyword Classifier Trainer em um Train Classifiers Scope e configure-o adequadamente.
Para mais informações, consulte o Document Classification Training.