- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Intelligent Keyword Classifier
O Intelligent Keyword Classifier é um classificador que usa o vetor de palavras que aprende a partir de arquivos de certos tipos de documentos para realizar a classificação de documentos.
O algoritmo é construído em torno do conceito de repetição de conteúdo para o mesmo tipo de documento e parte da premissa de que os tipos de documentos possuem uma série de palavras que geralmente ocorrem nesses tipos de documentos, permitindo assim um cálculo de similaridade vetorial.
Ao classificar um arquivo em um tipo de documento, o Classificador inteligente de palavras-chave:
- encontra o vetor de palavras mais próximo ao qual um arquivo é mais semelhante,
- reporta sobre o tipo de documento de pontuação mais alta, com as palavras principais correspondentes subjacentes.
O Classificador inteligente de palavras-chave também possui recursos de divisão de arquivos, o que significa que ele pode relatar mais de uma classe para um determinado arquivo, para intervalos de páginas separados.
Você deve considerar usar este classificador se:
- seus arquivos contêm um ou mais tipos de documentos em um único arquivo
- seus tipos de documento são relativamente fáceis de diferenciar no que diz respeito ao conteúdo.
You need to use your Automation CloudTM Document UnderstandingTM API Key, or host your own instance of the Intelligent Keyword Classifier in AI Center on-prem, to use this classifier.
Coloque a atividade Intelligent Keyword Classifier Trainer em um Train Classifiers Scope e configure-o adequadamente.
Não podemos impor a consistência do arquivo de treinamento em treinamentos paralelos ao nível de atividade. Duas soluções possíveis para este problema são fornecidas pelo Document Understanding Process. Ambos consistem em controle de tráfego:
- arquivos de bloqueio (implementado por padrão no processo): renomeie o arquivo usando a extensão
.lock
, modifique e salve o arquivo, depois renomeie o arquivo novamente, removendo a extensão.lock
- configuração manual de uma fila especial: crie uma fila vazia no Orchestrator e integre suas duas atividades do projeto.
Para obter mais informações sobre como treinar um Classificador, consulte esta página que descreve o processo de uso do assistente Gerenciar Aprendizagem.