Document Understanding - Visão geral do treinamento em extração de dados

document-understanding

2021.10

false

Guia do usuário do Document Understanding.

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Visão geral do treinamento em extração de dados

O que é o treinamento de extração de dados

O treinamento de extração de dados é um componente do framework Document Understanding que ajuda a fechar o ciclo de feedback para extratores que são capazes de aprender com o feedback humano. Isso ajudaria os extratores a ter um melhor desempenho em documentos subsequentes (dependendo de seus próprios recursos de aprendizado).

Quando o treinamento de extração de dados deve ser usado

Você pode criar processos do Document Understanding que não contenham nenhum componente de treinamento. Isso pode ocorrer por vários motivos, dos quais alguns são:

os extratores que você está usando não suportam retreinamento
você não deseja realizar o retreinamento, pois prefere que o processo use sempre o mesmo treinamento
você deseja atualizar o treinamento do extrator offline e está gerenciando suas atualizações fora do seu processo de DU.

Treinar seus extratores como parte do uso regular do processo é, no entanto, de grande benefício na maioria dos casos, pois os extratores podem coletar seus próprios dados de treinamento e realizar suas próprias atualizações ingerindo as informações de validação humana, sem exigir que você atualize seus fluxos de trabalho existentes de qualquer forma. Eles se tornam, por assim dizer, algoritmos de autoaprendizagem que podem aprender a agir melhor no futuro, com base no que os humanos validaram como dados corretos.

Como usar o componente de treinamento de extração de dados

O treinamento de extração de dados é feito por meio da atividade Train Extractors Scope. Você pode treinar um ou mais extratores, pois a atividade de escopo tem o papel de configurar e executar um ou mais algoritmos para treinamento de extrator de uma só vez.

O treinamento de extração de dados geralmente é executado após a Validação de extração de dados: somente feedback confirmado por humanos deve ser enviado de volta aos classificadores para treinamento, para garantir a precisão dos dados de treinamento recebidos pelos algoritmos.

O Treinamento de extração de dados deve ser executado tanto no caso de os dados extraídos automaticamente estarem corretos (não foram necessárias correções), quanto no caso de correções humanas. Isso ocorre porque ambos os casos são úteis para os algoritmos aprenderem.

Você pode treinar os extratores que foram usados no componente Extração de dados, bem como extratores que não foram usados para previsão de extração de dados. A última abordagem é usada para coletar dados de treinamento e treinar um extrator do zero, com a intenção de usá-lo posteriormente adicionando-o aos fluxos de trabalho do Document Understanding.

Resumindo, é isso que o Train Extractors Scope faz:

Fornece a todos os treinadores de extratores (algoritmos de treinamento) as configurações necessárias para sua execução.
Aceita um ou mais treinadores de extrator.
Permite filtragem de tipo de documento e nível de campo e mapeamento de taxonomia entre a taxonomia do projeto e quaisquer taxonomias do extrator interno.

O Train Extractors Scope permite configurá-lo usando o assistente Configurar extratores. Você pode personalizar

quais tipos de documentos e quais campos são enviados para treinamento para qual treinador de extrator,
qual é o mapeamento de taxonomia, ao nível de tipo de documento e nível de campo, entre a taxonomia do projeto e a taxonomia interna do extrator (se houver).

O Train Extractors Scope também permite que você identifique exclusivamente um par de atividades Extractor - Extractor Trainer, usando a mesma string de alias de estrutura tanto no escopo de extração de dados quanto no escopo de treinamento.

Treinadores de extratores disponíveis

Atualmente, apenas o Machine Learning Extractor possui recursos de treinamento/retreinamento. A atividade é encontrada no pacote UiPath.DocumentUnderstanding.ML.Activities e sua atividade de treinamento é chamada de Machine Learning Extractor Trainer.

Nesta página

O que é o treinamento de extração de dados
Quando o treinamento de extração de dados deve ser usado
Como usar o componente de treinamento de extração de dados
Treinadores de extratores disponíveis

Esta página foi útil?

AnteriorTreinamento em extração de dados

AvançarAssistente para configurar extratores de Train Extractors Scope