- Visão geral
- Introdução
- Criação de modelos
- Consumo de modelos
- Detalhes do modelo
- Endpoints públicos
- 1040 – tipo de documento
- 1040 Agendamento C – tipo de documento
- 1040 Agendamento D – tipo de documento
- 1040 Agendamento E – tipo de documento
- 1040x – tipo de documento
- 3949a – tipo de documento
- 4506T – tipo de documento
- 709 – tipo de documento
- 941x – tipo de documento
- 9465 – tipo de documento
- ACORD125 – tipo de documento
- ACORD126 – tipo de documento
- ACORD131 – tipo de documento
- ACORD140 – tipo de documento
- ACORD25 – tipo de documento
- Extratos bancários – tipo de documento
- Conhecimentos de embarque – tipo de documento
- Certificado de incorporação – tipo de documento
- Certificado de origem – tipo de documento
- Verificações – tipo de documento
- Certificado de produto infantil – tipo de documento
- CMS 1500 – tipo de documento
- Declaração de conformidade UE – tipo de documento
- Demonstrações financeiras – tipo de documento
- FM1003 – tipo de documento
- I9 – tipo de documento
- Cartões de identificação – tipo de documento
- Faturas – tipo de documento
- Faturas2 - tipo de documento
- Faturas Austrália – tipo de documento
- Faturas China – tipo de documento
- Faturas hebraicas – tipo de documento
- Faturas Índia – tipo de documento
- Faturas Japão – tipo de documento
- Faturas de Envio – tipo de documento
- Listas de embalagem – tipo de documento
- Holerites – tipo de documento
- Passaportes – tipo de documento
- Ordens de compra – tipo de documento
- Recibos – tipo de documento.
- Recibos2 - tipo de documento
- Recibos Japão – tipo de documento
- Avisos de Remessa – tipo de documento
- UB04 – tipo de documento
- Divulgações de fechamentos de hipotecas dos EUA - tipo de documento
- Contas de serviços públicos – tipo de documento
- Títulos de veículos – tipo de documento
- W2 – tipo de documento
- W9 – tipo de documento
- Idiomas suportados
- Painéis de insights
- Dados e segurança
- Geração de logs
- Licenciamento
- Como fazer
- Solução de problemas

Guia do usuário de projetos modernos do Document Understanding
O divisor treinável usa o modelo Helix Classifier para dividir e classificar pacotes de vários documentos. Ela detecta limites de documentos automaticamente e atribui um tipo de documento a cada subdocumento detectado.
O modelo está disponível apenas para tenants na Europa e nos EUA.
Use o divisor treinável nos seguintes cenários:
- Aplicativos de financiamento de imóvel: pacotes divididos contendo IDs, formulários de pedido e extratos bancários.
- Integração do setor de saúde: verifique a presença de documentos necessários, como atestados médicos, formulários de NPI e IDs.
- Solicitações de seguro: formulários de reivindicação, prontuários médicos e recibos separados.
- Processamento de faturas: lide com pacotes de faturas de vários fornecedores.
- Limpeza de documento: remova páginas irrelevantes para que apenas o conteúdo relevante seja processado downstream.
Ao criar um novo projeto, os tenants localizados na Europa e nos EUA podem habilitar o novo modelo de divisor e classificador. Esse modelo treinável pode ser treinado para dividir e classificar documentos complexos, permitindo que você processe pacotes de documentos.
Siga as instruções nesta página para criar um projeto do Document UnderstandingTM e habilitar o novo modelo de divisor e classificador.
Pré-requisitos
Antes de começar, certifique-se de que as seguintes condições sejam atendidas:
- Seu tenant está localizado na Europa ou nos EUA.
- IntelligentOCR.Activities versão 6.27.0 ou posterior está instalado.
- Projetos modernos está habilitado em seu tenant do Automation Cloud.
- Você tem pacotes de documentos de amostra representativos do seu caso de uso de produção.
- Abra o Document Understanding.
- Selecione Criar projeto.
- Insira o nome do projeto desejado.
- Selecione Moderno para usar a experiência moderna.
- Configure Opções avançadas, se necessário.
- Ative a alternância Habilitar divisão para permitir que o modelo divida documentos em arquivos individuais antes da classificação. Você também pode habilitar essa opção na tela Configurações do projeto .
Importante: quando a opção Habilitar divisão é desativada, o modelo é executado no modo apenas de classificação:
- A interface de divisão de anotação está indisponível.
- Não é possível dividir os documentos manualmente.
- Para treinamento, carregue documentos de uma página ou várias páginas do mesmo tipo.
- Todas as outras funcionalidades permanecem inalteradas.
- Selecione o método OCR na lista suspensa Método de OCR .
- Insira a Chave de API do OCR.
Observação: esse campo é preenchido automaticamente se você selecionar um UiPath® OCR.
- Insira a URL do OCR. Para ver a lista completa de URLs para OCRs da UiPath, consulte a página Endpoints públicos .
- Escolha se deseja Aplicar OCR em PDFs. O padrão é Auto.
- Ative a alternância Habilitar divisão para permitir que o modelo divida documentos em arquivos individuais antes da classificação. Você também pode habilitar essa opção na tela Configurações do projeto .
- Selecione Criar.
Resultado
Seu projeto foi criado. A seção Criar fica disponível, onde você pode carregar documentos para extração ou classificação.
Escolha uma das duas opções disponíveis:
- Extrair dados de documentos: extrai campos específicos de seus documentos, como números de faturas, datas e totais. Use esta opção quando precisar extrair campos de documentos.
- Classificar e dividir documentos: classifica documentos por tipo e separa vários documentos dentro de um único arquivo. Use esta opção quando precisar dividir e classificar documentos.
- Selecione um tipo de documento.
- Selecione Carregar ou arrastar e soltar seus arquivos dentro do novo tipo de documento. Aguarde o upload finalizar.
Certos arquivos complexos contêm vários tipos de documentos. O divisor treinável detecta onde cada subdocumento começa e termina e classifica cada seção de acordo.
- Selecione Classificar e Dividir documentos.
- Carregue seus pacotes de documentos. Aguarde o upload e o processamento para concluir.
- Selecione um documento na seção de upload.
- Selecione Dividir. A interface de anotação de divisão é aberta.
Observação: se o projeto já tiver um modelo treinado, os documentos carregados serão pré-anotados usando esse modelo. Isso ajuda a acelerar a anotação e permite revisar os resultados da previsão em novos documentos.
- Selecione Novo tipo de documento para criar um tipo de documento para cada item em sua taxonomia. Escolha um tipo de documento predefinido ou crie um personalizado.
Para tipos de documentos personalizados, forneça o seguinte:
- Nome: um nome claro e descritivo para o tipo de documento.
- Descrição: uma a três frases explicando o propósito do documento e o que o diferencia de tipos semelhantes.
- Indicadores-chave: campos ou termos separados por vírgulas que identificam exclusivamente este tipo de documento.
As descrições e os indicadores-chave afetam diretamente a precisão do modelo. Se as pontuações de classificação forem baixa, refine as descrições antes de adicionar mais dados de treinamento.
Exemplo para um tipo de documento de Fatura:
- Descrição: uma solicitação de pagamento formal emitida por um vendedor a um comprador, listando itens de linha, quantidades e valores totais devidos.
- Indicadores-chave: número da fatura, data da fatura, valor total, informações do vendedor, informações do comprador, condições de pagamento
Dicas para escrever descrições eficazes:
- Incluir terminologia específica para o tipo de documento.
- Se dois tipos de documento forem confundidos com frequência, adicione detalhes distintos a ambas as descrições.
- Atribua páginas que não sejam necessárias para processamento downstream ao tipo Desconhecido . Isso inclui páginas de cobertura, páginas em branco e planilhas separadoras. O modelo prevê essas páginas como Desconhecidas no runtime.
- Selecione os limites entre tipos de documentos para indicar onde cada documento começa e termina.
- Atribua cada intervalo de páginas a um tipo de documento usando o menu suspenso.
- Selecione Confirmar quando você terminar de anotar o documento.
Resultado
Cada subdocumento aparece em seu tipo de documento correspondente na seção Criar . Cada subdocumento é pré-anotado com o esquema de seu tipo de documento atribuído.
Treine em pacotes de documentos de produção originais e não divididos — não em documentos individuais pré-separados.
O modelo aprende padrões de agrupamento de documentos do contexto em torno de cada tipo de documento: o que aparece antes e depois dele em um pacote real. O treinamento em documentos pré-divisão remove esse contexto e reduz a precisão de divisão.
Abordagem recomendada:
- Carregar pacotes de produção que contêm vários tipos de documentos.
- Inclui pacotes que representam o intervalo de pedidos e contagens de documentos vistos na produção.
- Procure um conjunto de dados equilibrado entre todos os tipos de documentos.
O treinamento do modelo começa automaticamente após ambas as condições a seguir serem atendidas:
- Pelo menos cinco subdocumentos foram criados e anotados.
Observação: por exemplo, se você estiver usando um único PDF, ele deve conter pelo menos cinco subdocumentos. Se você estiver usando dois PDFs, um deve conter pelo menos dois subdocumentos e o outro pelo menos três.
- Um documento ter sido confirmado.
O status do treinamento é visível no canto superior direito do painel Classificação .
Requisitos de dados de treinamento
| Requisito | Detalhes |
|---|---|
| Mínimo de tipos de documentos | 1 |
| Mínimo de amostras totais | 5 documentos em todos os tipos de documento |
| Mínimo de amostras por tipo | 1 |
| Recomendado para resultados confiáveis | 50 a 100 pacotes |
| Tamanho máximo do documento | 160 MB ou 500 páginas |
| Divisão de treinamento/teste | Automático: 80% de treinamento, 20% de teste |
Melhoria dos resultados do treinamento
Quando o desempenho for insatisfatório, use uma destas abordagens:
- Refine as descrições e os indicadores-chave dos tipos de documento com baixo desempenho.
- Adicione mais amostras de treinamento para tipos de documento com baixa precisão.
Sempre que um novo modelo é treinado, todos os documentos no projeto recebem previsões do modelo treinado. Isso permite que você revise o desempenho do modelo de classificação.
A coluna Tipo exibe a verdade fundamental — o tipo de documento conforme anotado. A coluna Tipo previsto mostra o tipo previsto pelo modelo.
Por padrão, apenas pacotes de documentos são exibidos. Para visualizar subdocumentos dentro de cada pacote, selecione Exibir e marque Incluir subdocumentos.
As previsões também estão disponíveis na interface de anotação habilitando a alternância Mostrar previsão .
Selecione a guia Medição para revisar o desempenho do modelo.
| Métrica | O que mede | O que fazer se estiver baixo |
|---|---|---|
| Dividindo F1 | Precisão da detecção de limites de documentos, independentemente da classificação | Adicione dados de treinamento com exemplos de limites mais variados |
| Classificação F1 | Precisão da atribuição do tipo de documento, independentemente dos limites | Adicione mais páginas de treinamento para tipos de documento com baixo desempenho |
| F1 geral | Pontuação combinada: limite e atribuição de tipo devem estar corretos | Identifique se a divisão ou a classificação são menores e resolva isso primeiro |
Um subdocumento é contado como correto apenas quando a detecção de limite e a atribuição de tipo estão corretas.
Por meio de atividades IntelligentOCR
Use a atividade Document Understanding Project Classifier do pacote IntelligentOCR. Quando a divisão está habilitada no projeto, a atividade retorna vários ResultadosDaClassificação — um por subdocumento detectado. Itere sobre os resultados para realizar a validação ou extração em cada subdocumento.
Por meio de atividades do DocumentUnderstanding
Use a atividade Classify Document .
Via API
classify . Quando a divisão está habilitada na versão do projeto, o ponto de extremidade realiza a divisão e retorna resultados de classificação para cada subdocumento identificado.
Exportação de um conjunto de dados de modelo treinado
Se uma versão do projeto contiver um classificador divisor treinado, duas opções de exportação estarão disponíveis:
- Exportação de conjunto de dados por tipo de documento: exportação padrão de dados anotados.
- Exportação de divisores e classificadores: exportação completa do projeto, incluindo o modelo treinado.
Apenas as versões do projeto com um classificador de divisor treinado aparecem na lista suspensa Exportação de divisor e classificador .
Importando para um novo projeto
A opção de importação está disponível na página de classificação vazia. A importação de um arquivo zip atribui documentos a seus tipos de documento e dispara o treinamento automaticamente.