- Visão geral
- Introdução
- Atividades
- Painéis de insights
- Processo do Document Understanding
- Tutoriais de início rápido
- Componentes do framework
- Detalhes do modelo
- Visão geral
- Document Understanding - Pacote de ML
- DocumentClassifier - Pacote de ML
- Pacotes de ML com recursos de OCR
- 1040 - Pacote de ML
- 1040 Schedule C - Pacote de ML
- 1040 Schedule D - Pacote de ML
- 1040 Schedule E - Pacote de ML
- 1040x - Pacote de ML
- 3949a - Pacote de ML
- 4506T - Pacote de ML
- 709 - Pacote de ML
- 941x - Pacote de ML
- 9465 - Pacote de ML
- ACORD125 - Pacote de ML
- ACORD126 - Pacote de ML
- ACORD131 - Pacote de ML
- ACORD140 - Pacote de ML
- ACORD25 - Pacote de ML
- Extratos bancários - Pacote de ML
- ConhecimentoDeEmbarque - Pacote de ML
- Certificado de incorporação - Pacote de ML
- Certificado de origem - Pacote de ML
- Cheques - Pacote de ML
- Certificado de produtos filhos - Pacote de ML
- CMS1500 — Pacote de ML
- Declaração de Conformidade da UE - Pacote de ML
- Demonstrações financeiras - Pacote de ML
- FM1003 - Pacote de ML
- I9 - Pacote de ML
- Cartões de identificação - Pacote de ML
- Faturas - Pacote de ML
- FaturasAustrália - Pacote de ML
- FaturasChina - Pacote de ML
- Faturas em hebraico - Pacote de ML
- FaturasÍndia - Pacote de ML
- FaturasJapão - Pacote de ML
- Envio de faturas - Pacote de ML
- Romaneio de carga - Pacote de ML
- Contracheques — Pacote de ML
- Passaportes - Pacote de ML
- Ordens de compra - Pacote de ML
- Recibos – Pacote de ML
- AvisosDePagamento - Pacote de ML
- UB04 - Pacote de ML
- Contas de serviços - Pacote de ML
- Títulos de veículos - Pacote de ML
- W2 - Pacote de ML
- W9 - Pacote de ML
- Outros pacotes de ML prontos para uso
- Endpoints públicos
- Limitações de tráfego
- Configuração de OCR
- Pipelines
- Serviços de OCR
- Idiomas suportados
- Aprendizagem profunda
- Dados e segurança
- Lógica de licenciamento e carregamento

Document Understanding classic user guide
Rotular documentos
For the needed volumes of documents, check the Pipelines page.
For more details about how to assemble a high-quality dataset, check the Training High Performing Models page.
Campos que ocorrem várias vezes no mesmo documento
Há muitas situações em que um campo aparece em vários lugares no mesmo documento ou até na mesma página. Todos devem ser rotulados desde que tenham o mesmo significado.
Por exemplo, o valor total das contas de serviços públicos. Ele geralmente aparece no topo, em uma lista de itens de linha no meio ou em um recibo de pagamento na parte inferior, que pode ser destacado e enviado pelo correio com o cheque. Nesta situação, todas as três ocorrências seriam rotuladas. Isso é útil, pois, em alguns casos, se houver um erro de OCR ou o layout for diferente e um campo não puder ser identificado, o modelo ainda poderá identificar as outras ocorrências.
What counts is the meaning of the value, not the value itself. For instance, on some invoices which carry no tax, the net amount and the total amount have the same value. But they are clearly different concepts. Consequently, they should not be labelled both as total amount but only the one whose meaning is to represent the total amount.
Vários usuários rotulando em paralelo
Você pode fazer com que vários usuários usem a mesma instância para rotular ao mesmo tempo, inclusive no mesmo documento.
Se houver alterações simultâneas no esquema para um usuário, a alteração será executada e para os outros, uma mensagem de aviso será exibida informando que as alterações não poderiam ser realizadas. . . Os outros usuários devem atualizar imediatamente seu navegador para verificar as alterações.
Rotulagem para treinamento
When you import a dataset without checking the Make this an Evaluation set checkbox on the Import Data dialog box, then that dataset is used for training and you only need to focus on the labeling of the model and both label and value (selectable words, grey boxes) on the document.
Se de vez em quando o texto preenchido nos campos da barra lateral não estiver correto, isso não é um problema, pois o modelo de ML ainda aprende. Em alguns casos, pode ser necessário ajustar a configuração dos campos: por exemplo, marcando a caixa de seleção Múltiplas linhas. Mas, em geral, o foco principal é rotular as palavras na página.
Rotulagem para avaliação
Quando você importa um conjunto de dados e marca a caixa de seleção Tornar este um conjunto de avaliação na caixa de diálogo Importar dados, esse conjunto de dados é ignorado pelos Pipelines de Treinamento no AI Center e usado apenas pelos Pipelines de Avaliação.
O Document Manager suporta a rotulagem de documentos de várias páginas, consequentemente, campos na barra lateral têm um valor único para todo o documento. Isso reflete de perto o comportamento durante a execução no fluxo de trabalho de RPA e permite que os Pipelines de Avaliação no AI Center produzam pontuações realistas, refletindo o desempenho durante a execução real dos modelos de ML.
No entanto, lembre-se de que essa é uma grande mudança em relação às versões anteriores, nas quais cada página era rotulada separadamente. Rotular e exportar documentos de várias páginas pressupõe que cada documento represente um único documento lógico. Por exemplo, um documento de seis páginas pode conter uma única fatura de seis páginas, mas não deve conter três faturas diferentes, com duas páginas cada. Isso é particularmente importante para conjuntos de avaliação.
Ações de rotulagem
Um determinado campo pode ser rotulado em vários lugares na mesma página.
Rotular um campo
To select multiple words, select the first word and then Ctrl/Shift+click the rest of the desired words or select an entire area by dragging the mouse (the rubber banding) over it.
To unselect certain text boxes from your selection, while Ctrl/Shift is pressed, select or rubber band the unwanted text boxes again.
Quando sua seleção estiver correta, toque na tecla de atalho para rotular o campo.
Label a multivalued field
Certifique-se de que a opção de vários valores do campo esteja selecionada.
Selecione o primeiro lote de informações e toque na tecla de atalho para rotular o campo.
Repita as etapas anteriores até que todos os valores sejam rotulados para o campo multivalorado.
A multivalued field displays two values in its collapsed state and all values it its expanded state. Select the expand arrow from the multivalued field to expand and visualize the list of all tagged values.
Remover um rótulo
Select text boxes, then press the Delete or the Backspace key on your keyboard.
Agrupar uma linha da tabela
After you have labelled some Column fields, and only if some rows span multiple lines of text, then you may group them together by pressing the / key to indicate that they are part of the same table row. A green box appears around the group to visually indicate the row has been grouped..
Sempre que uma linha de tabela consiste em uma única linha de texto, esse agrupamento é opcional, mas você ainda precisa garantir que os valores que aparecem na visualização de tabela na parte superior da tela contenham os valores de coluna conforme você deseja que eles sejam extraídos. Se não o fizerem, então você precisa agrupar explicitamente cada linha de texto usando a tecla /, mesmo que cada linha consista em uma única linha de texto.
Desagrupar uma linha da tabela
Select the group and press the / key again.
Outras opções
Selecione um rótulo
Use os botões esquerdo ou direito do mouse para selecionar uma caixa ou obter mais informações sobre ela.
- Clique esquerdo - seleciona a caixa
- Clicar com o botão direito - seleciona a caixa e exibe informações sobre o texto OCR e o rótulo atual.
Navegação de documento
- Alt + Seta para a esquerda / Seta para a direita - Navega entre os documentos.
Dimensionamento de documento
- Ctrl + Scroll - Altera a escala do documento aumentando ou diminuindo o zoom.
Exclua ou recupere um documento
- Alt + Delete - Exclui um documento.
- Alt + Delete - Recupera um documento excluído.