- Introdução
- Componentes do framework
- Visão geral do treinamento em extração de dados
- Assistente para configurar extratores de Train Extractors Scope
- Machine Learning Extractor Trainer
- Atividades relacionadas ao treinamento em extração de dados
- Pacotes de ML
- Pipelines
- Gerenciador de Dados
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Aprendizagem profunda
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guia do usuário do Document Understanding.
Visão geral do treinamento em extração de dados
O treinamento de extração de dados é um componente do framework Document Understanding que ajuda a fechar o ciclo de feedback para extratores que são capazes de aprender com o feedback humano. Isso ajudaria os extratores a ter um melhor desempenho em documentos subsequentes (dependendo de seus próprios recursos de aprendizado).
Você pode criar processos do Document Understanding que não contenham nenhum componente de treinamento. Isso pode ocorrer por vários motivos, dos quais alguns são:
- os extratores que você está usando não suportam retreinamento
- você não deseja realizar o retreinamento, pois prefere que o processo use sempre o mesmo treinamento
- você deseja atualizar o treinamento do extrator offline e está gerenciando suas atualizações fora do seu processo de DU.
Treinar seus extratores como parte do uso regular do processo é, no entanto, de grande benefício na maioria dos casos, pois os extratores podem coletar seus próprios dados de treinamento e realizar suas próprias atualizações ingerindo as informações de validação humana, sem exigir que você atualize seus fluxos de trabalho existentes de qualquer forma. Eles se tornam, por assim dizer, algoritmos de autoaprendizagem que podem aprender a agir melhor no futuro, com base no que os humanos validaram como dados corretos.
O treinamento de extração de dados é feito por meio da atividade Train Extractors Scope. Você pode treinar um ou mais extratores, pois a atividade de escopo tem o papel de configurar e executar um ou mais algoritmos para treinamento de extrator de uma só vez.
O treinamento de extração de dados geralmente é executado após a Validação de extração de dados: somente feedback confirmado por humanos deve ser enviado de volta aos classificadores para treinamento, para garantir a precisão dos dados de treinamento recebidos pelos algoritmos.
O Treinamento de extração de dados deve ser executado tanto no caso de os dados extraídos automaticamente estarem corretos (não foram necessárias correções), quanto no caso de correções humanas. Isso ocorre porque ambos os casos são úteis para os algoritmos aprenderem.
Você pode treinar os extratores que foram usados no componente Extração de dados, bem como extratores que não foram usados para previsão de extração de dados. A última abordagem é usada para coletar dados de treinamento e treinar um extrator do zero, com a intenção de usá-lo posteriormente adicionando-o aos fluxos de trabalho do Document Understanding.
Resumindo, é isso que o Train Extractors Scope faz:
- Fornece a todos os treinadores de extratores (algoritmos de treinamento) as configurações necessárias para sua execução.
- Aceita um ou mais treinadores de extrator.
- Permite filtragem de tipo de documento e nível de campo e mapeamento de taxonomia entre a taxonomia do projeto e quaisquer taxonomias do extrator interno.
O Train Extractors Scope permite configurá-lo usando o assistente Configurar extratores. Você pode personalizar
- quais tipos de documentos e quais campos são enviados para treinamento para qual treinador de extrator,
- qual é o mapeamento de taxonomia, ao nível de tipo de documento e nível de campo, entre a taxonomia do projeto e a taxonomia interna do extrator (se houver).
O Train Extractors Scope também permite que você identifique exclusivamente um par de atividades Extractor - Extractor Trainer, usando a mesma string de alias de estrutura tanto no escopo de extração de dados quanto no escopo de treinamento.
Atualmente, apenas o Machine Learning Extractor possui recursos de treinamento/retreinamento. A atividade é encontrada no pacote UiPath.DocumentUnderstanding.ML.Activities e sua atividade de treinamento é chamada de Machine Learning Extractor Trainer.