- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Pipelines
- Gerenciador de Dados
- Serviços de OCR
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Licenciamento
- Referências
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guia do usuário do Document Understanding.
Importar documentos
A caixa de diálogo Importar dados permite importar facilmente novos documentos para serem rotulados ou revisados.
Clique no botão Importar na barra de gerenciamento.
A caixa de diálogo contém os seguintes controles:
- Campo de texto Batch name - é obrigatório inserir um nome para sua exportação, caso contrário, a seção Procurar ou arrastar arquivos será desabilitada; um nome válido pode ter até 24 caracteres e não deve conter caracteres especiais.
- Caixa de seleção Faça deste um conjunto de avaliação - se selecionada, o conjunto de dados é usado para fins de avaliação.
- Caixa de seleção Habilitar documentos grandes - se selecionada, você pode carregar documentos com mais de 150 páginas.
- Seção Procurar ou arrastar arquivos - clique em Procurar arquivos para fazer upload para navegar pelo seu diretório ou simplesmente arraste e solte os arquivos dentro do quadro.
- Seção Status - clique em (carregar log de importação anterior) para visualizar o status da última importação; ao fazer upload de dados, na seção Status, você acessa uma visão geral de seus arquivos e é solicitado a prosseguir com a importação clicando em SIM ou abortar a importação clicando em CANCELAR.
Importante:A versão 2021.101 do Data Manager oferece suporte à rotulagem de documentos de várias páginas. Esta é uma grande mudança em relação às versões anteriores, nas quais cada página era rotulada separadamente. Rotular e exportar documentos de várias páginas pressupõe que cada documento represente um único documento lógico. Por exemplo, um documento de seis páginas pode conter uma única fatura de seis páginas, mas não deve conter três faturas diferentes, com duas páginas cada. Isso é particularmente importante para conjuntos de avaliação.
Este requisito não é relevante para exportações retrocompatíveis.
Há 4 tipos de importação suportados no Data Manager:
- Importação de esquema
- Importação de documentos brutos (máximo de 2.000 ou 2 GB de páginas por importação)
- Importação de conjunto de dados do Data Manager (máximo de 2.000 ou 2 GB de páginas por importação)
- Importação do conjunto de dados da Estação de Validação (máximo de 2.000 ou 2 GB de páginas por importação)
Se você deseja iniciar uma nova sessão do Data Manager usando o mesmo esquema de uma sessão existente, siga estas etapas:
- Clique no botão Exportar na barra de gerenciamento.
- Na caixa de diálogo Exportar arquivos, marque a opção Esquema.
- Clique no botão Exportar dentro da caixa de diálogo. Um arquivo
.zip
é exportado. - Clique no botão Importar na barra de gerenciamento.
- Carregue ou arraste e solte o arquivo
.zip
diretamente na nova sessão do Data Manager (não descompacte). Nesta etapa, você também pode fazer upload de um esquema predefinido. - Clique em SIM na seção Status para prosseguir com a importação. O esquema é importado.
Você também pode usar um dos esquemas predefinidos fornecidos na página Usar um esquema predefinido.
.pdf
, .tiff
, .png
, .jpg
.
- Arquivos
.zip
não são suportados para importação de documentos brutos. - As configurações de OCR precisam ser definidas antes da importação.
Siga os passos abaixo:
- Clique no botão Importar. A caixa de diálogo Importar dados é exibida.
- Forneça um nome de lote no campo Batch name. Isso permite que você filtre e localize facilmente esses documentos usando o menu suspenso Pesquisar posteriormente.
- Se você quiser usar este lote de documentos para treinar um modelo de ML, deixe desmarcada a caixa de seleção Tornar este um conjunto de avaliação.
- Se você quiser usar este lote de documentos para avaliar um modelo de ML (ou seja, medir seu desempenho), marque a caixa de seleção Tornar este um conjunto de avaliação. Isso garante que os dados sejam ignorados pelos pipelines de treinamento.
- Se você tiver documentos com mais de 150 páginas, marque a caixa de seleção Habilitar documentos grandes. Caso contrário, deixe a caixa de seleção desmarcada.
- Carregue ou arraste e solte um arquivo ou conjunto de arquivos na seção Procurar ou soltar arquivos.
- Clique em SIM. O arquivo ou conjunto de arquivos são importados.
.zip
que foi exportado originalmente e importá-lo diretamente para a nova instância do Data Manager.
Se sua nova instância do Data Manager estiver completamente vazia (sem dados e sem campos definidos), então ambos os documentos com rótulos e o esquema serão importados.
Se sua nova instância do Data Manager já tiver campos definidos, o conjunto de dados recém-importado precisará ter os mesmos campos ou um subconjunto desses campos. Caso contrário, a importação será rejeitada.
Dividir grandes conjuntos de dados
.zip
em vários arquivos .zip
menores que 1 GB e com menos de 1500 arquivos.
Como seu fluxo de trabalho de RPA processa documentos usando um modelo de ML existente, alguns documentos podem exigir validação manual usando a atividade Estação de Validação (disponível em robôs attended ou no navegador usando o Orchestrator Action Center).
Os dados validados gerados na Estação de Validação podem ser exportados usando a atividade Machine Learning Extractor Trainer e podem ser usados para treinar modelos de ML com a funcionalidade descrita abaixo.
Siga os passos abaixo:
- Configure o Machine Learning Extractor Trainer para gerar dados em uma pasta com caminho
<Trainer/Output/Folder>
(use qualquer caminho de pasta vazio). - Execute um fluxo de trabalho de RPA, incluindo o Validation Station e o Machine Learning Extractor Trainer.
- O Machine Learning Extractor Trainer cria três subpastas: documents, metadata e predictions dentro da pasta output.
- Compacte o arquivo
<Trainer/Output/Folder>
para obter um arquivo.zip
, por exemplo TrainerOutputFolder.zip. - Importe o arquivo
.zip
para o Data Manager, que detecta que a importação contém dados produzidos pelo Machine Learning Extractor Trainer e importa os dados de acordo.
Se houver campos ausentes exigidos pelo conjunto de dados, uma mensagem de erro será exibida na caixa de diálogo de importação.