- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Licenciamento
Guia do usuário do Document Understanding.
Visão geral do treinamento em extração de dados
O treinamento de extração de dados é um componente do framework TMdo Document Understanding que ajuda a fechar o ciclo de feedback para extratores que são capazes de aprender com o feedback humano. Isso ajudaria os extratores a ter um melhor desempenho em documentos subsequentes (dependendo de seus próprios recursos de aprendizado).
Você pode criar processos do Document Understanding que não contenham nenhum componente de treinamento. Isso pode ocorrer por vários motivos, dos quais alguns são:
- os extratores que você está usando não suportam retreinamento
- você não deseja realizar o retreinamento, pois prefere que o processo use sempre o mesmo treinamento
- você deseja atualizar o treinamento do extrator offline e está gerenciando suas atualizações fora do seu processo de DU.
Treinar seus extratores como parte do uso regular do processo é, no entanto, de grande benefício na maioria dos casos, pois os extratores podem coletar seus próprios dados de treinamento e realizar suas próprias atualizações ingerindo as informações de validação humana, sem exigir que você atualize seus fluxos de trabalho existentes de qualquer forma. Eles se tornam, por assim dizer, algoritmos de autoaprendizagem que podem aprender a agir melhor no futuro, com base no que os humanos validaram como dados corretos.
O treinamento de extração de dados é feito por meio da atividade Train Extractors Scope. Você pode treinar um ou mais extratores, pois a atividade de escopo tem o papel de configurar e executar um ou mais algoritmos para treinamento de extrator de uma só vez.
O treinamento de extração de dados geralmente é executado após a Validação de extração de dados: somente feedback confirmado por humanos deve ser enviado de volta aos classificadores para treinamento, para garantir a precisão dos dados de treinamento recebidos pelos algoritmos.
O Treinamento de extração de dados deve ser executado tanto no caso de os dados extraídos automaticamente estarem corretos (não foram necessárias correções), quanto no caso de correções humanas. Isso ocorre porque ambos os casos são úteis para os algoritmos aprenderem.
Você pode treinar os extratores que foram usados no componente Extração de dados, bem como extratores que não foram usados para previsão de extração de dados. A última abordagem é usada para coletar dados de treinamento e treinar um extrator do zero, com a intenção de usá-lo posteriormente adicionando-o aos fluxos de trabalho do Document Understanding.
Resumindo, é isso que o Train Extractors Scope faz:
- Fornece a todos os treinadores de extratores (algoritmos de treinamento) as configurações necessárias para sua execução.
- Aceita um ou mais treinadores de extrator.
- Permite filtragem de tipo de documento e nível de campo e mapeamento de taxonomia entre a taxonomia do projeto e quaisquer taxonomias do extrator interno.
O Train Extractors Scope permite configurá-lo usando o assistente Configurar extratores. Você pode personalizar
- quais tipos de documentos e quais campos são enviados para treinamento para qual treinador de extrator,
- qual é o mapeamento de taxonomia, ao nível de tipo de documento e nível de campo, entre a taxonomia do projeto e a taxonomia interna do extrator (se houver).
O Train Extractors Scope também permite que você identifique exclusivamente um par de atividades Extractor - Extractor Trainer, usando a mesma string de alias de estrutura tanto no escopo de extração de dados quanto no escopo de treinamento.
Atualmente, apenas o Machine Learning Extractor possui recursos de treinamento/retreinamento. A atividade é encontrada no pacote UiPath.DocumentUnderstanding.ML.Activities e sua atividade de treinamento é chamada de Machine Learning Extractor Trainer.