- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Detalhes do modelo
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos – Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Dados e segurança
- Lógica de licenciamento e carregamento

Document Understanding classic user guide
Importar documentos
A caixa de diálogo Importar dados permite importar facilmente novos documentos para serem rotulados ou revisados.
Select the Import button
from the management bar.
A caixa de diálogo contém os seguintes controles:
-
Campo de texto Batch name - é obrigatório inserir um nome para sua exportação, caso contrário, a seção Procurar ou arrastar arquivos será desabilitada; um nome válido pode ter até 24 caracteres e não deve conter caracteres especiais.
-
Make this an evaluation set checkbox - if selected, the dataset is used for evaluation purposes.
-
Browse or drop files section - select Browse files to upload to navigate through your directory or simply drag and drop the files inside the frame.
-
Status section - select (load previous import log) to check to check the status of the latest import; when uploading data, in the Status section you receive an overview of your files and you are prompted to proceed with the import by selecting YES or abort the import by selecting CANCEL.

Tipos de importação
Existem 4 tipos de importação suportados no Document Manager:
- Importação de esquema
- Raw documents import (max 2000 pages and 4000 MiB per import)
- Document Manager dataset import (4000 MiB per import)
- Validation Station dataset import (max 2000 pages and 4000 MiB per import)
Importação de esquema
Se deseja iniciar uma nova sessão no Document Manager usando o mesmo esquema de uma sessão existente, siga estas etapas:
- Select the Export button from the management bar.
- Na caixa de diálogo Exportar arquivos, marque a opção Esquema.
- Select the Export button inside the dialog box. A
.zipfile is exported. - Select the Import button from the management bar.
- Upload or drag & drop the
.zipfile directly into the new Document Manager session (do not unzip). In this step, you can also upload a predefined schema. - Select YES in the Status section to proceed with the import. The schema is imported.
A importação de esquema agora pode ser aplicada para campos de vários valores.
Esteja ciente de que os campos de vários valores são compatíveis apenas com os modelos que possuem a versão 2022.10 ou superior.
Importação de documentos brutos
Os tipos de documentos que podem ser importados para rotulagem são: .pdf, .tiff, .png, .jpg.
Arquivos .zip não são suportados para importação de documentos brutos.
As configurações de OCR precisam ser definidas antes da importação.
- Select the Import button
. The Import data dialog box is displayed. - Forneça um nome de lote no campo Batch name. Isso permite que você filtre e localize facilmente esses documentos usando o menu suspenso Pesquisar posteriormente.
- Se você quiser usar este lote de documentos para treinar um modelo de ML, deixe desmarcada a caixa de seleção Tornar este um conjunto de avaliação.
- Se você quiser usar este lote de documentos para avaliar um modelo de ML (ou seja, medir seu desempenho), marque a caixa de seleção Tornar este um conjunto de avaliação. Isso garante que os dados sejam ignorados pelos pipelines de treinamento.
- Carregue ou arraste e solte um arquivo ou conjunto de arquivos na seção Procurar ou soltar arquivos.
- Select YES. The file or set of files are imported.
Importação do conjunto de dados do Document Manager
Para importar um conjunto de dados que foi rotulado anteriormente em outra sessão do Document Manager, você precisa obter o arquivo .zip que foi exportado originalmente e importá-lo diretamente para a nova instância do Document Manager.
Se sua nova instância do Document Manager estiver completamente vazia (sem dados e sem campos definidos), os documentos com rótulos e o esquema serão importados.
Se sua nova instância do Document Manager já tiver campos definidos, o conjunto de dados recém-importado precisará ter os mesmos campos ou um subconjunto desses campos. Caso contrário, a importação será rejeitada.
Caso você exporte um banco de dados de um ambiente do Automation Cloud™ e, depois, importe-o para uma implantação no local, será necessário seguir estas etapas:
- Descompacte o arquivo do conjunto de dados.
- Edite o arquivo
scheman.jsondo arquivo. - Remova todas as propriedades
display_namedo arquivojsone salve-o. - Compacte o conjunto de dados de volta e importe-o para a sessão no local.
Dividir grandes conjuntos de dados
To import Document Manager datasets larger than 1GB or that have more than 1500 files, we recommend you to use this script which splits the .zip files into multiple .zip files that are smaller than 1GB and that have less than 1500 files.
Importação do conjunto de dados do Validation Station
As your RPA workflow processes documents using an existing ML model, some documents may require human validation using the Validation Station activity (available on attended bots or in the browser using Orchestrator Action Center).
The validated data generated in Validation Station can be exported using Machine Learning Extractor Trainer activity and can be used to train ML models.
Para a importação do conjunto de dados do Validation Station, é obrigatório ter um esquema definido.
- Configure o Machine Learning Extractor Trainer para gerar dados em uma pasta com caminho
<Trainer/Output/Folder>(use qualquer caminho de pasta vazio). - Execute um fluxo de trabalho de RPA, incluindo o Validation Station e o Machine Learning Extractor Trainer.
- O Machine Learning Extractor Trainer cria três subpastas: documents, metadata e predictions dentro da pasta output.
- Compacte o arquivo
<Trainer/Output/Folder>para obter um arquivo.zip, por exemplo TrainerOutputFolder.zip. - Importe o arquivo
.zippara o Document Manager, que detecta que a importação contém dados produzidos pelo Machine Learning Extractor Trainer e importa os dados de acordo.
Se houver campos ausentes exigidos pelo conjunto de dados, uma mensagem de erro será exibida na caixa de diálogo de importação.
