document-understanding

2020.10

false

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Obsoleto

Guia do usuário do Document Understanding.

ENTREGA:

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Última atualização 4 de fev de 2025

Rotular documentos

Preparação de dados

Para os volumes de documentos necessários, consulte a seção Pipelines de Treinamento e Retreinamento aqui.

Ao selecionar os documentos a serem utilizados para o treinamento, você também precisará estar atento a alguns detalhes. Primeiro, você precisará remover páginas de lixo que não incluam campos de interesse ou que incluam apenas 1 ou 2. Você pode fazer isso no Data Manager usando o botão Excluir. As páginas não são perdidas, elas sempre podem ser recuperadas na visualização Excluídas.

Então, se o seu caso de uso envolver um tipo de documento altamente diversificado (como faturas ou recibos), você precisará de um conjunto de treinamento altamente diversificado. Ao mesmo tempo, o conjunto de dados precisa ser equilibrado - você deve evitar ter 10 vezes mais documentos de um fornecedor do que de outro. Em geral, basta ter de 2 a 3 documentos (ou seja, ~4-6 páginas se houver 2 páginas por documento em média) de um determinado layout. Se alguns deles forem muito comuns em seu fluxo de trabalho e você quiser garantir que sejam extraídos corretamente, inclua de 5 a 7 amostras (10 a 15 páginas).

No entanto, se o seu caso de uso envolver um tipo de documento com um layout muito consistente (por exemplo, um formulário), você precisará de pelo menos 30 amostras, pois, se o conjunto de treinamento for muito pequeno, o treinamento do modelo de ML poderá falhar.

Rotulagem de vários usuários em paralelo

Você pode fazer com que várias pessoas usem a mesma instância para rotular simultaneamente somente se as seguintes condições forem observadas:

dois usuários não devem rotular o mesmo documento ao mesmo tempo
sempre que campos são adicionados, removidos ou sua configuração é editada, isso deve ser feito por um usuário e todos os outros usuários devem atualizar imediatamente seu navegador para ver as alterações. Fazer alterações nos campos enquanto outras pessoas estão rotulando causará um comportamento inesperado.

Rotulagem para treinamento

Quando você importa um conjunto de dados sem marcar a caixa de seleção "Tornar isto um conjunto de teste" na caixa de diálogo Importar dados, esse conjunto de dados será usado para treinamento. Neste caso, você só precisa se concentrar na rotulagem das palavras (caixas cinza) no documento. Se ocasionalmente o texto preenchido nos campos da barra lateral não estiver correto, isso não é um problema, o modelo de ML ainda aprenderá. Em alguns casos, pode ser necessário ajustar a configuração dos campos - por exemplo, marcando a caixa de seleção Multilinha. Mas, em geral, o foco é rotular as palavras na página.

Campos que ocorrem várias vezes no mesmo documento

Há muitas situações em que um campo aparecerá em vários lugares no mesmo documento ou até mesmo na mesma página. Todos devem ser rotulados desde que tenham o mesmo significado. Um exemplo, de muitas contas de serviços públicos, é o valor total. Ele geralmente aparece no topo e em uma lista de itens de linha no meio ou em um recibo de pagamento na parte inferior, que pode ser destacado e enviado pelo correio com o cheque. Nesta situação, todas as três ocorrências seriam rotuladas. Isso é útil, pois, em alguns casos, se houver um erro de OCR ou o layout for diferente e um deles não puder ser identificado, o modelo ainda poderá identificar as outras ocorrências.

É importante notar que o que conta é o significado do valor, não o valor em si. Por exemplo, em algumas faturas que não incluem impostos, o valor líquido e o valor total têm o mesmo valor. Mas são conceitos claramente distintos. Consequentemente, ambos não devem ser rotulados como valor total. Somente aquele cujo significado é representar o valor total, deve ser rotulado como valor total.

Rotulagem para testes

Quando você importa um conjunto de dados e marca a caixa de seleção "Tornar isso um conjunto de teste" na caixa de diálogo Importar dados, esse conjunto de dados não será usado pelos pipelines de treinamento no AI Fabric, mas apenas pelos pipelines de avaliação. Nesse caso, é importante que o texto correto seja preenchido nos campos da barra lateral (ou da barra superior no caso dos campos Coluna). Essa ação leva muito mais tempo para verificar para cada campo, mas é a única maneira de obter uma métrica confiável da precisão do modelo de ML que está construindo.

Ações de rotulagem

Veja abaixo as principais ações que você precisa realizar ao rotular documentos. Um determinado campo pode ser rotulado em vários lugares na mesma página.

Rotular campo
- Selecione palavras arrastando o mouse (criando uma seleção) ou clicando nelas, mantendo pressionada a tecla Shift para selecionar várias palavras.
- Toque na tecla de atalho para rotular o campo
Remover rótulo
- Selecione as palavras e toque na tecla Delete ou Backspace no teclado.
Agrupar linha de tabela
- Após rotular alguns campos de Coluna, e somente se algumas linhas abrangerem várias linhas de texto, você poderá agrupá-las usando a tecla "/" para indicar que fazem parte da mesma linha da tabela. Uma caixa verde aparecerá ao redor do grupo.
Desagrupar linda de tabela
- Selecione o grupo e toque em “/” novamente
Faça a correção no OCR
- Clique com o botão direito do mouse na palavra e edite o texto na dica de ferramenta que aparece. Isso raramente é recomendado, pois o OCR ainda cometerá esses erros durante a produção. Consequentemente, costuma ser melhor ignorar e seguir em frente.
Corrigir o valor rotulado
- Clique no texto na barra lateral ou na barra superior e edite o conteúdo. Um pequeno cadeado aparecerá para indicar que o campo foi editado manualmente. Isso é necessário ao rotular conjuntos de teste.
Redefinir valor rotulado para valor extraído automaticamente
- Clique no cadeado e o campo volta ao seu valor extraído automaticamente.