document-understanding

latest

false

Importante :

A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Guia do usuário de projetos modernos do Document Understanding

ENTREGA:

Última atualização 27 de mar de 2025

Medida

Você pode verificar o status geral do seu projeto e verificar as áreas com potencial de melhoria na seção Medir.

Medida do projeto

A medição principal na página é a Pontuação geral do projeto.

Esta medida inclui as pontuações do classificador e do extrator para todos os tipos de documentos. A pontuação de cada fator corresponde à classificação do modelo e pode ser visualizada em Medida de classificação e Medida de extração, respectivamente.

A classificação do modelo é uma funcionalidade destinada a ajudar você a visualizar o desempenho de um modelo de classificação. Ela é expressa como uma pontuação do modelo de 0 a 100 da seguinte forma:

Insatisfatório (0-49)
Médio (50-69)
Bom (70-89)
Excelente (90-100)

Independentemente da pontuação do modelo, cabe a você decidir quando interromper o treinamento, dependendo das necessidades do projeto. Mesmo que um modelo seja classificado como Excelente, isso não significa que ele atenderá a todos os requisitos de negócios.

Medida de classificação

A pontuação de Classificação inclui o desempenho do modelo, além do tamanho e a qualidade do conjunto de dados.

Observação: a pontuação de classificação só estará disponível se você tiver mais de um tipo de documento criado.

Se você clicar em Classificação, duas guias serão exibidas no lado direito:

Fatores: fornece recomendações sobre como melhorar o desempenho de seu modelo. Você pode obter recomendações sobre o tamanho do conjunto de dados ou desempenho do modelo treinado para cada tipo de documento.
Métricas: fornece métricas úteis, como o número de documentos de treinamento e teste, precisão, exatidão, recall e pontuação F1 para cada tipo de documento.

Medida de extração

A pontuação de Extração inclui o desempenho geral do modelo, bem como o tamanho e a qualidade do conjunto de dados.Essa visualização é dividida em tipos deVocê também pode acessar diretamente a visualização Anotar de cada tipo de documento clicando em Anotar.

Se você clicar em qualquer um dos tipos de documentos disponíveis na visualização Extração, três guias serão exibidas no lado direito:

Fatores: fornece recomendações sobre como melhorar o desempenho de seu modelo. Você pode obter recomendações sobre o tamanho do conjunto de dados (número de documentos carregados, número de documentos anotados) ou o desempenho do modelo treinado (precisão dos campos) para o tipo de documento selecionado.
Conjunto de dados: fornece informações sobre os documentos usados para treinar o modelo, o número total de páginas importadas e o número total de páginas rotuladas.
Métricas: fornece informações e métricas úteis, como o nome do campo, o número do status de treinamento e a precisão para o tipo de documento selecionado. Você também pode acessar métricas avançadas para seus modelos de extração usando o botão Baixar métricas avançadas. Essa funcionalidade permite que você baixe um arquivo Excel com métricas detalhadas e resultados de modelo por lote.

Diagnóstico do conjunto de dados

A guia Conjunto de dados ajuda você a criar conjuntos de dados eficazes fornecendo feedback e recomendações das etapas necessárias para alcançar uma boa precisão para o modelo treinado.

Há três níveis de status do conjunto de dados expostos na barra de gerenciamento:

Vermelho - São necessários mais dados de treinamento rotulados.
Laranja - Mais dados de treinamento rotulados são recomendados.
Light green - Labelled training data is within recommendations.
Dark green - Labelled training data is within recommendations. However, more data might be needed for underperforming fields.

Se nenhum campo for criado na sessão, o nível de status do conjunto de dados estará cinza.

Comparar modelo

Você pode comparar o desempenho de duas versões de um modelo de classificação ou extração na seção Medir .

Comparação do modelo de classificação

Para comparar o desempenho de duas versões de um modelo de classificação, primeiro navegue até a seção Medir . Em seguida, selecione Comparar modelo para o modelo de classificação no qual você está interessado.

Você pode escolher as versões que deseja comparar na lista suspensa na parte superior de cada coluna. Por padrão, a versão atual, que indica a versão mais recente disponível, é selecionada à esquerda, e a versão mais recente publicada à direita.

Figura 1. Comparação do modelo de classificação

A comparação de modelos de classificação depende de quatro métricas principais:

Precisão: a razão entre instâncias positivas prevista corretamente e o total de instâncias com previsão positiva. Um modelo com alta precisão indica menos falsos positivos.
Precisão: a proporção de previsões corretas (incluindo verdadeiros positivos e negativos verdadeiros) do total de instâncias.
Recall: a proporção de casos positivos reais que foram identificados corretamente.
Pontuação F1: a média matemática da precisão e do recall, com o objetivo de encontrar um equilíbrio entre essas duas métricas. Isso serve como uma escolha entre falsos positivos e falsos negativos.

A ordem dos tipos de documento exibidos é a usada na versão mais recente da comparação. Se um tipo de documento não estiver disponível em uma das versões comparadas, os valores de cada medida serão substituídos por N/A.

Observação: se um campo foi removido na versão atual, mas estava disponível na versão mais antiga antes da funcionalidade Comparar modelo estar disponível, o nome é substituído por Desconhecido.

Comparação do modelo de extração

Para comparar o desempenho de duas versões de um modelo de extração, primeiro navegue até a seção Medir . Em seguida, selecione Comparar modelo para o modelo de extração no qual você está interessado.

Figura 2. Comparação do modelo de extração

A comparação de modelos de extração depende das seguintes métricas principais:

Nome do campo: o nome do campo de anotação.
Tipo de conteúdo: o tipo de conteúdo do campo:
- String
- Número
- Data
- Telefone
- Número de ID
Classificação: pontuação do modelo destinada a ajudar você a visualizar o desempenho do campo extraído.
Precisão: a porcentagem do número total de previsões que o modelo faz que estão corretas.

A ordem dos nomes dos campos exibidos é aquela usada na versão mais recente da comparação. Se um nome de campo não estiver disponível em uma das versões comparadas, os valores de cada medida serão substituídos por N/A.

Você também pode comparar a pontuação do campo para tabelas da seção Tabela .

Você pode baixar o arquivo de métricas avançadas para cada versão na página de comparação a partir do botão Baixar métricas avançadas .

Nesta página