- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Visão geral da classificação de documentos
Document Classification is a component in the Document UnderstandingTM Framework that helps in identifying what types of files the robot is processing.
Um arquivo pode ser classificado em um ou mais tipos de documentos, dependendo de seu conteúdo e dos métodos de classificação utilizados:
- se um arquivo contiver um único tipo de documento lógico (por exemplo, uma fatura ou um prontuário médico em sua totalidade), o componente de classificação deve ser configurado de acordo e retornar um único resultado de classificação;
- se um arquivo contiver vários tipos de documentos lógicos (por exemplo, contém uma fatura da página 1 à página 5 e um registro médico para as próximas 10 páginas, e um contrato de seguro da página 16 até o final), o componente de classificação deve retornar vários resultados de classificação, cada um correspondendo ao intervalo de páginas correto do arquivo de entrada.
Os Tipos de documentos nos quais a classificação é tentada são os definidos na Taxonomia do projeto.
Por um lado, se um projeto precisa processar arquivos que são todos do mesmo tipo de documento e estão sempre presentes como uma instância por arquivo (por exemplo, uma fatura em um arquivo), a classificação não é necessária e pode ser ignorada em sua totalidade.
Por outro lado, se o projeto estiver lidando com dois ou mais tipos de documentos (por exemplo, o fluxo de trabalho deve processar faturas e registros médicos que não podem ser distinguidos antes do processamento), ou espera-se que os arquivos contenham dois ou mais tipos de documentos distintos dentro deles (por exemplo, um arquivo contém 3 faturas), então a classificação é fortemente recomendada.
A classificação é feita por meio da atividade Classify Document Scope. Para classificar os documentos, você pode utilizar um ou mais classificadores, pois a atividade de escopo tem o papel de configurar e executar um ou mais algoritmos para classificação de documentos e oferecer uma opção de configuração simples e unitária para todas as suas necessidades.
Resumindo, é isso que Classify Document Scope faz:
- Fornece a todos os Classificadores (algoritmos de classificação) as configurações necessárias para sua execução.
- Aceita um ou mais classificadores.
- Permite filtragem de tipo de documento, mapeamento de taxonomia e configurações de limite mínimo de confiança ao nível do classificador.
- Relata informações de classificação de forma unificada, independentemente da fonte de classificação.
O Classify Document Scope permite que você o configure usando o assistente Configurar Classificadores. Você pode personalizar
- quais tipos de documentos são aceitos de cada classificador,
- qual é o limite mínimo de confiança para um determinado resultado que é aceitável para cada classificador,
- qual é o mapeamento de taxonomia, em nível de tipo de documento, entre a taxonomia do projeto e a taxonomia interna do classificador (se houver).
Observe que a ordem dos classificadores no Classify Document Scope é importante:
- os classificadores são executados com prioridade, da esquerda para a direita;
- um resultado de classificação retornado por um classificador é aceito se relatar um dos tipos de documentos aceitáveis e tiver um limite de confiança igual ou superior ao limite de confiança mínimo definido para esse classificador;
- um classificador é executado com os intervalos de páginas que permaneceram não classificados apenas pelos classificadores anteriores (assim pode ser chamado várias vezes em uma execução).
Com base nos requisitos do caso de uso, você pode escolher entre vários métodos de classificação, chamados de classificadores.
Os classificadores podem ser encontrados nos pacotes UiPath.IntelligentOCR.Activities ou UiPath.DocumentUnderstanding.ML.Activities.
Os classificadores disponíveis são:
- Classificador baseado em palavra-chave
- Intelligent Keyword Classifier
- Machine Learning Classifier
- Classificador Generativo
Você pode construir seu próprio Classificador utilizando os Contratos de Processamento de Documentos públicos, podendo assim implementar qualquer algoritmo que se adeque ao seu caso de uso.