document-understanding

2022.4

true

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Guia do usuário do Document Understanding.

ENTREGA:

Última atualização 4 de abr de 2025

Importar documentos

A caixa de diálogo Importar dados permite importar facilmente novos documentos para serem rotulados ou revisados.

Clique no botão Importar na barra de gerenciamento.

A caixa de diálogo contém os seguintes controles:

Campo de texto Batch name - é obrigatório inserir um nome para sua exportação, caso contrário, a seção Procurar ou arrastar arquivos será desabilitada; um nome válido pode ter até 24 caracteres e não deve conter caracteres especiais.
Caixa de seleção Faça deste um conjunto de avaliação - se selecionada, o conjunto de dados é usado para fins de avaliação.
Caixa de seleção Habilitar documentos grandes - se selecionada, você pode carregar documentos com mais de 150 páginas.
Seção Procurar ou arrastar arquivos - clique em Procurar arquivos para fazer upload para navegar pelo seu diretório ou simplesmente arraste e solte os arquivos dentro do quadro.
Seção Status - clique em (carregar log de importação anterior) para visualizar o status da última importação; ao fazer upload de dados, na seção Status, você acessa uma visão geral de seus arquivos e é solicitado a prosseguir com a importação clicando em SIM ou abortar a importação clicando em CANCELAR.

Importante:
A versão 2021.101 do Document Manager oferece suporte à rotulagem de documentos de várias páginas. Esta é uma grande mudança em relação às versões anteriores, nas quais cada página era rotulada separadamente. Rotular e exportar documentos de várias páginas pressupõe que cada documento represente um único documento lógico. Por exemplo, um documento de seis páginas pode conter uma única fatura de seis páginas, mas não deve conter três faturas diferentes, com duas páginas cada. Isso é particularmente importante para conjuntos de avaliação.

Este requisito não é relevante para exportações retrocompatíveis.

Tipos de importação

Existem 4 tipos de importação suportados no Document Manager:

Importação de esquema
Importação de documentos brutos (máximo de 2.000 ou 1 GB de páginas por importação)
Importação do conjunto de dados do Document Manager (máximo de 2.000 ou 1 GB de páginas por importação)
Importação do conjunto de dados da Estação de Validação (máximo de 2.000 ou 1 GB de páginas por importação)

Importação de esquema

Se deseja iniciar uma nova sessão no Document Manager usando o mesmo esquema de uma sessão existente, siga estas etapas:

Clique no botão Exportar na barra de gerenciamento.
Na caixa de diálogo Exportar arquivos, marque a opção Esquema.
Clique no botão Exportar dentro da caixa de diálogo. Um arquivo .zip é exportado.
Clique no botão Importar na barra de gerenciamento.
Carregue ou arraste e solte o arquivo .zip diretamente na nova sessão do Document Manager (não descompacte). Nesta etapa, você também pode fazer upload de um esquema predefinido.
Clique em SIM na seção Status para prosseguir com a importação. O esquema é importado.

Você também pode usar um dos esquemas predefinidos fornecidos na página Usar um esquema predefinido.

Importação de documentos brutos

Os tipos de documentos que podem ser importados para rotulagem são: .pdf, .tiff, .png, .jpg.

Arquivos .zip não são suportados para importação de documentos brutos.
As configurações de OCR precisam ser definidas antes da importação.

Siga os passos abaixo:

Clique no botão Importar. A caixa de diálogo Importar dados é exibida.
Forneça um nome de lote no campo Batch name. Isso permite que você filtre e localize facilmente esses documentos usando o menu suspenso Pesquisar posteriormente.
- Se você quiser usar este lote de documentos para treinar um modelo de ML, deixe desmarcada a caixa de seleção Tornar este um conjunto de avaliação.
- Se você quiser usar este lote de documentos para avaliar um modelo de ML (ou seja, medir seu desempenho), marque a caixa de seleção Tornar este um conjunto de avaliação. Isso garante que os dados sejam ignorados pelos pipelines de treinamento.
Se você tiver documentos com mais de 150 páginas, marque a caixa de seleção Habilitar documentos grandes. Caso contrário, deixe a caixa de seleção desmarcada.
Carregue ou arraste e solte um arquivo ou conjunto de arquivos na seção Procurar ou soltar arquivos.
Clique em SIM. O arquivo ou conjunto de arquivos são importados.

Importação do conjunto de dados do Document Manager

Para importar um conjunto de dados que foi rotulado anteriormente em outra sessão do Document Manager, você precisa obter o arquivo .zip que foi exportado originalmente e importá-lo diretamente para a nova instância do Document Manager.

Se sua nova instância do Document Manager estiver completamente vazia (sem dados e sem campos definidos), os documentos com rótulos e o esquema serão importados.

Se sua nova instância do Document Manager já tiver campos definidos, o conjunto de dados recém-importado precisará ter os mesmos campos ou um subconjunto desses campos. Caso contrário, a importação será rejeitada.

Dividir grandes conjuntos de dados

Para importar conjuntos de dados do Document Manager maiores que 1 GB ou que tenham mais de 1500 arquivos, recomendamos que você use este script, que divide os arquivos .zip em vários arquivos .zip menores que 1 GB e com menos de 1500 arquivos.

Importação do conjunto de dados do Validation Station

Como seu fluxo de trabalho de RPA processa documentos usando um modelo de ML existente, alguns documentos podem exigir validação manual usando a atividade Estação de Validação (disponível em robôs attended ou no navegador usando o Orchestrator Action Center).

Os dados validados gerados na Estação de Validação podem ser exportados usando a atividade Machine Learning Extractor Trainer e podem ser usados para treinar modelos de ML com a funcionalidade descrita abaixo.

Observação: para a importação do conjunto de dados da Estação de Validação, é obrigatório ter um esquema definido.

Siga os passos abaixo:

Configure o Machine Learning Extractor Trainer para gerar dados em uma pasta com caminho <Trainer/Output/Folder> (use qualquer caminho de pasta vazio).
Execute um fluxo de trabalho de RPA, incluindo o Validation Station e o Machine Learning Extractor Trainer.
O Machine Learning Extractor Trainer cria três subpastas: documents, metadata e predictions dentro da pasta output.
Compacte o arquivo <Trainer/Output/Folder> para obter um arquivo .zip, por exemplo TrainerOutputFolder.zip.
Importe o arquivo .zip para o Document Manager, que detecta que a importação contém dados produzidos pelo Machine Learning Extractor Trainer e importa os dados de acordo.