UiPath Documentation
document-understanding
latest
false
Importante :
A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.
UiPath logo, featuring letters U and I in white

Guia do usuário de projetos modernos do Document Understanding

Última atualização 24 de mar de 2026

Divisor treinável (Visualização)

Visão geral

O divisor treinável usa o modelo Helix Classifier para dividir e classificar pacotes de vários documentos. Ela detecta limites de documentos automaticamente e atribui um tipo de documento a cada subdocumento detectado.

O modelo está disponível apenas para tenants na Europa e nos EUA.

quando usar

Use o divisor treinável nos seguintes cenários:

  • Aplicativos de financiamento de imóvel: pacotes divididos contendo IDs, formulários de pedido e extratos bancários.
  • Integração do setor de saúde: verifique a presença de documentos necessários, como atestados médicos, formulários de NPI e IDs.
  • Solicitações de seguro: formulários de reivindicação, prontuários médicos e recibos separados.
  • Processamento de faturas: lide com pacotes de faturas de vários fornecedores.
  • Limpeza de documento: remova páginas irrelevantes para que apenas o conteúdo relevante seja processado downstream.

Criação de um novo projeto

Ao criar um novo projeto, os tenants localizados na Europa e nos EUA podem habilitar o novo modelo de divisor e classificador. Esse modelo treinável pode ser treinado para dividir e classificar documentos complexos, permitindo que você processe pacotes de documentos.

Siga as instruções nesta página para criar um projeto do Document UnderstandingTM e habilitar o novo modelo de divisor e classificador.

Pré-requisitos

Antes de começar, certifique-se de que as seguintes condições sejam atendidas:

  • Seu tenant está localizado na Europa ou nos EUA.
  • IntelligentOCR.Activities versão 6.27.0 ou posterior está instalado.
  • Projetos modernos está habilitado em seu tenant do Automation Cloud.
  • Você tem pacotes de documentos de amostra representativos do seu caso de uso de produção.
  1. Abra o Document Understanding.
  2. Selecione Criar projeto.
  3. Insira o nome do projeto desejado.
  4. Selecione Moderno para usar a experiência moderna.
  5. Configure Opções avançadas, se necessário.
    1. Ative a alternância Habilitar divisão para permitir que o modelo divida documentos em arquivos individuais antes da classificação. Você também pode habilitar essa opção na tela Configurações do projeto .
      Importante: quando a opção Habilitar divisão é desativada, o modelo é executado no modo apenas de classificação:
      • A interface de divisão de anotação está indisponível.
      • Não é possível dividir os documentos manualmente.
      • Para treinamento, carregue documentos de uma página ou várias páginas do mesmo tipo.
      • Todas as outras funcionalidades permanecem inalteradas.


    2. Selecione o método OCR na lista suspensa Método de OCR .
    3. Insira a Chave de API do OCR.
      Observação: esse campo é preenchido automaticamente se você selecionar um UiPath® OCR.
    4. Insira a URL do OCR. Para ver a lista completa de URLs para OCRs da UiPath, consulte a página Endpoints públicos .
    5. Escolha se deseja Aplicar OCR em PDFs. O padrão é Auto.
  6. Selecione Criar.

Resultado

Seu projeto foi criado. A seção Criar fica disponível, onde você pode carregar documentos para extração ou classificação.

Escolha uma das duas opções disponíveis:

  • Extrair dados de documentos: extrai campos específicos de seus documentos, como números de faturas, datas e totais. Use esta opção quando precisar extrair campos de documentos.
  • Classificar e dividir documentos: classifica documentos por tipo e separa vários documentos dentro de um único arquivo. Use esta opção quando precisar dividir e classificar documentos.

Extração de dados de documentos

  1. Selecione um tipo de documento.
  2. Selecione Carregar ou arrastar e soltar seus arquivos dentro do novo tipo de documento. Aguarde o upload finalizar.

Classificar e dividir documentos

Certos arquivos complexos contêm vários tipos de documentos. O divisor treinável detecta onde cada subdocumento começa e termina e classifica cada seção de acordo.

  1. Selecione Classificar e Dividir documentos.
  2. Carregue seus pacotes de documentos. Aguarde o upload e o processamento para concluir.
  3. Selecione um documento na seção de upload.
  4. Selecione Dividir. A interface de anotação de divisão é aberta.
    Observação: se o projeto já tiver um modelo treinado, os documentos carregados serão pré-anotados usando esse modelo. Isso ajuda a acelerar a anotação e permite revisar os resultados da previsão em novos documentos.
  5. Selecione Novo tipo de documento para criar um tipo de documento para cada item em sua taxonomia. Escolha um tipo de documento predefinido ou crie um personalizado.

    Para tipos de documentos personalizados, forneça o seguinte:

    • Nome: um nome claro e descritivo para o tipo de documento.
    • Descrição: uma a três frases explicando o propósito do documento e o que o diferencia de tipos semelhantes.
    • Indicadores-chave: campos ou termos separados por vírgulas que identificam exclusivamente este tipo de documento.


    As descrições e os indicadores-chave afetam diretamente a precisão do modelo. Se as pontuações de classificação forem baixa, refine as descrições antes de adicionar mais dados de treinamento.

    Exemplo para um tipo de documento de Fatura:

    • Descrição: uma solicitação de pagamento formal emitida por um vendedor a um comprador, listando itens de linha, quantidades e valores totais devidos.
    • Indicadores-chave: número da fatura, data da fatura, valor total, informações do vendedor, informações do comprador, condições de pagamento

    Dicas para escrever descrições eficazes:

    • Incluir terminologia específica para o tipo de documento.
    • Se dois tipos de documento forem confundidos com frequência, adicione detalhes distintos a ambas as descrições.
  6. Atribua páginas que não sejam necessárias para processamento downstream ao tipo Desconhecido . Isso inclui páginas de cobertura, páginas em branco e planilhas separadoras. O modelo prevê essas páginas como Desconhecidas no runtime.
  7. Selecione os limites entre tipos de documentos para indicar onde cada documento começa e termina.
  8. Atribua cada intervalo de páginas a um tipo de documento usando o menu suspenso.
  9. Selecione Confirmar quando você terminar de anotar o documento.

Resultado

Cada subdocumento aparece em seu tipo de documento correspondente na seção Criar . Cada subdocumento é pré-anotado com o esquema de seu tipo de documento atribuído.

Prática recomendada de treinamento

Treine em pacotes de documentos de produção originais e não divididos — não em documentos individuais pré-separados.

O modelo aprende padrões de agrupamento de documentos do contexto em torno de cada tipo de documento: o que aparece antes e depois dele em um pacote real. O treinamento em documentos pré-divisão remove esse contexto e reduz a precisão de divisão.

Abordagem recomendada:

  • Carregar pacotes de produção que contêm vários tipos de documentos.
  • Inclui pacotes que representam o intervalo de pedidos e contagens de documentos vistos na produção.
  • Procure um conjunto de dados equilibrado entre todos os tipos de documentos.
Observação: o treinamento em documentos pré-separados produz um modelo de trabalho, mas a precisão da divisão é menor do que o treinamento em pacotes originais.

Treinamento do modelo

O treinamento do modelo começa automaticamente após ambas as condições a seguir serem atendidas:

  • Pelo menos cinco subdocumentos foram criados e anotados.
    Observação: por exemplo, se você estiver usando um único PDF, ele deve conter pelo menos cinco subdocumentos. Se você estiver usando dois PDFs, um deve conter pelo menos dois subdocumentos e o outro pelo menos três.
  • Um documento ter sido confirmado.

O status do treinamento é visível no canto superior direito do painel Classificação .



Requisitos de dados de treinamento

RequisitoDetalhes
Mínimo de tipos de documentos1
Mínimo de amostras totais5 documentos em todos os tipos de documento
Mínimo de amostras por tipo1
Recomendado para resultados confiáveis50 a 100 pacotes
Tamanho máximo do documento160 MB ou 500 páginas
Divisão de treinamento/testeAutomático: 80% de treinamento, 20% de teste

Melhoria dos resultados do treinamento

Quando o desempenho for insatisfatório, use uma destas abordagens:

  1. Refine as descrições e os indicadores-chave dos tipos de documento com baixo desempenho.
  2. Adicione mais amostras de treinamento para tipos de documento com baixa precisão.

Previsões de divisão e classificação

Sempre que um novo modelo é treinado, todos os documentos no projeto recebem previsões do modelo treinado. Isso permite que você revise o desempenho do modelo de classificação.

A coluna Tipo exibe a verdade fundamental — o tipo de documento conforme anotado. A coluna Tipo previsto mostra o tipo previsto pelo modelo.

Por padrão, apenas pacotes de documentos são exibidos. Para visualizar subdocumentos dentro de cada pacote, selecione Exibir e marque Incluir subdocumentos.

As previsões também estão disponíveis na interface de anotação habilitando a alternância Mostrar previsão .

Compreensão das métricas

Selecione a guia Medição para revisar o desempenho do modelo.

MétricaO que medeO que fazer se estiver baixo
Dividindo F1Precisão da detecção de limites de documentos, independentemente da classificação Adicione dados de treinamento com exemplos de limites mais variados
Classificação F1Precisão da atribuição do tipo de documento, independentemente dos limites Adicione mais páginas de treinamento para tipos de documento com baixo desempenho
F1 geralPontuação combinada: limite e atribuição de tipo devem estar corretos Identifique se a divisão ou a classificação são menores e resolva isso primeiro

Um subdocumento é contado como correto apenas quando a detecção de limite e a atribuição de tipo estão corretas.

Observação: documentos grandes com muitas páginas Desconhecidas no conjunto de teste podem reduzir as pontuações de forma desproporcional. Se as pontuações parecerem inesperadamente baixa, verifique se os documentos discrepantes estão distorcendo o conjunto de testes.

Consumindo o modelo no runtime

Por meio de atividades IntelligentOCR

Use a atividade Document Understanding Project Classifier do pacote IntelligentOCR. Quando a divisão está habilitada no projeto, a atividade retorna vários ResultadosDaClassificação — um por subdocumento detectado. Itere sobre os resultados para realizar a validação ou extração em cada subdocumento.

Por meio de atividades do DocumentUnderstanding

Use a atividade Classify Document .

Via API

Use o ponto de extremidade classify . Quando a divisão está habilitada na versão do projeto, o ponto de extremidade realiza a divisão e retorna resultados de classificação para cada subdocumento identificado.

Importação e Exportação

Exportação de um conjunto de dados de modelo treinado

Se uma versão do projeto contiver um classificador divisor treinado, duas opções de exportação estarão disponíveis:

  • Exportação de conjunto de dados por tipo de documento: exportação padrão de dados anotados.
  • Exportação de divisores e classificadores: exportação completa do projeto, incluindo o modelo treinado.

Apenas as versões do projeto com um classificador de divisor treinado aparecem na lista suspensa Exportação de divisor e classificador .

Importando para um novo projeto

A opção de importação está disponível na página de classificação vazia. A importação de um arquivo zip atribui documentos a seus tipos de documento e dispara o treinamento automaticamente.

Limitações

  • Disponível apenas em tenants localizados na Europa e nos EUA.
  • As páginas não podem ser reordenadas ou excluídas na interface de anotação.
  • Dividir informações não está disponível na página Monitorar.
  • O retreinamento do Action Center não é compatível com modelos de divisão e classificação.

Esta página foi útil?

Conectar

Precisa de ajuda? Suporte

Quer aprender? Academia UiPath

Tem perguntas? Fórum do UiPath

Fique por dentro das novidades