- Visão geral
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Pacotes de ML
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 4506T - Pacote de ML
- 990 - Pacote de ML - Prévia
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Passaportes - Pacote de ML
- Contracheques — Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos - Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Requisitos de Hardware
- Pipelines
- Document Manager
- Serviços de OCR
- Aprendizagem profunda
- Document Understanding implantado no Automation Suite
- Document Understanding implantado no AI Center autônomo
- Licenciamento
- Atividades
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guia do usuário do Document Understanding.
Rotular documentos
Para os volumes de documentos necessários, consulte Pipelines.
Para obter mais detalhes sobre como montar um conjunto de dados de alta qualidade, consulte Treinamento de modelos de alto desempenho.
Há muitas situações em que um campo aparece em vários lugares no mesmo documento ou até na mesma página. Todos devem ser rotulados desde que tenham o mesmo significado.
Por exemplo, o valor total das contas de serviços públicos. Ele geralmente aparece no topo, em uma lista de itens de linha no meio ou em um recibo de pagamento na parte inferior, que pode ser destacado e enviado pelo correio com o cheque. Nesta situação, todas as três ocorrências seriam rotuladas. Isso é útil, pois, em alguns casos, se houver um erro de OCR ou o layout for diferente e um campo não puder ser identificado, o modelo ainda poderá identificar as outras ocorrências.
Você pode fazer com que vários usuários usem a mesma instância para rotular ao mesmo tempo, inclusive no mesmo documento.
Se houver alterações simultâneas no esquema, para um usuário a alteração é aplicada; para o(s) outro(s) é exibida uma mensagem de aviso informando que as alterações não puderam ser executadas. O(s) outro(s) usuário(s) deve(m) atualizar imediatamente o navegador para ver as alterações.
Quando você importa um conjunto de dados sem marcar a caixa de seleção Tornar este um conjunto de avaliação na caixa de diálogo Importar dados, esse conjunto de dados é usado para treinamento e você só precisa se concentrar na rotulagem do modelo e em rótulo e valor (palavras selecionáveis, caixas cinza) no documento.
Se de vez em quando o texto preenchido nos campos da barra lateral não estiver correto, isso não é um problema, pois o modelo de ML ainda aprende. Em alguns casos, pode ser necessário ajustar a configuração dos campos: por exemplo, marcando a caixa de seleção Múltiplas linhas. Mas, em geral, o foco principal é rotular as palavras na página.
Quando você importa um conjunto de dados e marca a caixa de seleção Tornar este um conjunto de avaliação na caixa de diálogo Importar dados, esse conjunto de dados é ignorado pelos Pipelines de Treinamento no AI Center e usado apenas pelos Pipelines de Avaliação.
É importante que o texto correto seja preenchido nos campos da barra lateral (ou na barra superior para campos de Coluna). Essa ação leva muito mais tempo para verificar para cada campo, mas é a única maneira de obter uma métrica confiável da precisão do modelo de ML que você está construindo.
O Document Manager suporta a rotulagem de documentos de várias páginas, consequentemente, campos na barra lateral têm um valor único para todo o documento. Isso reflete de perto o comportamento durante a execução no fluxo de trabalho de RPA e permite que os Pipelines de Avaliação no AI Center produzam pontuações realistas, refletindo o desempenho durante a execução real dos modelos de ML.
No entanto, lembre-se de que essa é uma grande mudança em relação às versões anteriores, nas quais cada página era rotulada separadamente. Rotular e exportar documentos de várias páginas pressupõe que cada documento represente um único documento lógico. Por exemplo, um documento de seis páginas pode conter uma única fatura de seis páginas, mas não deve conter três faturas diferentes, com duas páginas cada. Isso é particularmente importante para conjuntos de avaliação.
Veja abaixo as principais ações que você precisa realizar ao rotular documentos. Um determinado campo pode ser rotulado em vários lugares na mesma página.
Selecione uma caixa de texto individual clicando nela.
Para selecionar várias palavras, clique na primeira palavra e, em seguida, dê Ctrl/Shift + clique no restante das palavras desejadas ou selecione uma área inteira arrastando o mouse (criando uma seleção) sobre ela.
Para desmarcar determinadas caixas da sua seleção, pressione Ctrl/Shift, clique ou passe a borracha na caixa de texto indesejada.
Quando sua seleção estiver correta, toque na tecla de atalho para rotular o campo.
Certifique-se de que a opção de vários valores do campo esteja selecionada.
Selecione o primeiro lote de informações e toque na tecla de atalho para rotular o campo.
Repita as etapas acima até que todos os valores sejam rotulados para o campo de vários valores.
Após rotular alguns campos de Coluna, e somente se algumas linhas abrangerem várias linhas de texto, você poderá agrupá-las pressionando a tecla / para indicar que fazem parte da mesma linha da tabela.Uma caixa verde aparece ao redor do grupo.
Quando um campo de coluna rotulado é agrupado, a tabela é analisada e exibida na parte superior, destacando os dados extraídos.
Selecione um rótulo
Use os botões esquerdo ou direito do mouse para selecionar uma caixa ou obter mais informações sobre ela.
- Clique esquerdo - seleciona a caixa
- Clicar com o botão direito - seleciona a caixa e exibe informações sobre o texto OCR e o rótulo atual.
Navegação de documento
- Alt + Seta para a esquerda / Seta para a direita - Navega entre os documentos.
Dimensionamento de documento
- Ctrl + Scroll - Altera a escala do documento aumentando ou diminuindo o zoom.
Exclua ou recupere um documento
- Alt + Delete - Exclui um documento.
- Alt + Delete - Recupera um documento excluído.