- Visão geral
- Introdução
- Criação de modelos
- Consumo de modelos
- Detalhes do modelo
- Pontos de extremidade públicos para o Automation Cloud e Test Cloud
- Pontos de extremidade públicos para a Automation Cloud e Test Cloud Public Sector
- 1040 – tipo de documento
- 1040 Agendamento C – tipo de documento
- 1040 Agendamento D – tipo de documento
- 1040 Agendamento E – tipo de documento
- 1040x – tipo de documento
- 3949a – tipo de documento
- 4506T – tipo de documento
- 709 – tipo de documento
- 941x – tipo de documento
- 9465 – tipo de documento
- ACORD125 – tipo de documento
- ACORD126 – tipo de documento
- ACORD131 – tipo de documento
- ACORD140 – tipo de documento
- ACORD25 – tipo de documento
- Extratos bancários – tipo de documento
- Conhecimentos de embarque – tipo de documento
- Certificado de incorporação – tipo de documento
- Certificado de origem – tipo de documento
- Verificações – tipo de documento
- Certificado de produto infantil – tipo de documento
- CMS 1500 – tipo de documento
- Declaração de conformidade UE – tipo de documento
- Demonstrações financeiras – tipo de documento
- FM1003 – tipo de documento
- I9 – tipo de documento
- Cartões de identificação – tipo de documento
- Faturas – tipo de documento
- Faturas2 - tipo de documento
- Faturas Austrália – tipo de documento
- Faturas China – tipo de documento
- Faturas hebraicas – tipo de documento
- Faturas Índia – tipo de documento
- Faturas Japão – tipo de documento
- Faturas de Envio – tipo de documento
- Listas de embalagem – tipo de documento
- Holerites – tipo de documento
- Passaportes – tipo de documento
- Ordens de compra – tipo de documento
- Recibos – tipo de documento.
- Recibos2 - tipo de documento
- Recibos Japão – tipo de documento
- Avisos de Remessa – tipo de documento
- UB04 – tipo de documento
- Divulgações de fechamentos de hipotecas dos EUA - tipo de documento
- Contas de serviços públicos – tipo de documento
- Títulos de veículos – tipo de documento
- W2 – tipo de documento
- W9 – tipo de documento
- Idiomas suportados
- Painéis de insights
- Dados e segurança
- Geração de logs
- Licenciamento
- Como fazer
- Solução de problemas
Guia do usuário do Document Understanding.
Visão geral
O divisor treinável usa o modelo Helix Classifier para dividir e classificar pacotes de vários documentos. Ele detecta os limites do documento automaticamente e atribui um tipo de documento a cada subdocumento detectado.
O modelo está disponível apenas para tenants na Europa e nos EUA.
Esta funcionalidade não é compatível com organizações que usam Chaves Gerenciadas pelo Cliente (CMK). Se sua organização usa CMK, essa funcionalidade não estará disponível e não poderá ser habilitada nas configurações do seu projeto.
quando usar
Use o divisor treinável nos seguintes cenários:
- Aplicativos de financiamento de imóvel: pacotes divididos contendo IDs, formulários de pedido e extratos bancários.
- Integração do setor de saúde: verifique a presença de documentos necessários, como atestados médicos, formulários de NPI e IDs.
- Solicitações de seguro: formulários de reivindicação, prontuários médicos e recibos separados.
- Processamento de faturas: lide com pacotes de faturas de vários fornecedores.
- Limpeza de documento: remova páginas irrelevantes para que apenas o conteúdo relevante seja processado downstream.
Criação de um novo projeto
Ao criar um novo projeto, os tenants localizados na Europa e nos EUA podem habilitar o novo modelo de divisor e classificador. Esse modelo treinável pode ser treinado para dividir e classificar documentos complexos, permitindo que você processe pacotes de documentos.
Siga as instruções nesta página para criar um projeto do Document UnderstandingTM e habilitar o novo modelo de divisor e classificador.
Pré-requisitos
Antes de você começar, certifique-se de que as seguintes condições sejam atendidas:
- Seu tenant está localizado na Europa ou nos EUA.
- A versão 6.27.0 ou posterior do IntelligentOCR.Activities está instalada.
- Projetos modernos estão habilitados em seu tenant do Automation Cloud.
- Você tem amostras de pacotes de documentos representativos de seu caso de uso de produção.
-
Abra o Document Understanding.
-
Selecione Criar projeto.
-
Insira o nome do projeto desejado.
-
Para o Automation Cloud e o Test Cloud, selecione Moderno para usar a experiência moderna.
-
Ative a alternância Habilitar novo modelo de divisor e classificador.
-
Configure Opções avançadas, se necessário.
- Ative a alternância Habilitar divisão para permitir que o modelo divida documentos em arquivos individuais antes da classificação. Você também pode habilitar essa opção na tela Configurações do projeto .
Importante:
Quando a opção Habilitar divisão é desativada, o modelo é executado no modo apenas de classificação:
- A interface de anotação de divisão está indisponível.
- Os documentos não podem ser divididos manualmente.
- Para treinamento, carregue documentos de página única ou de várias páginas do mesmo tipo.
- Todas as outras funcionalidades permanecem inalteradas.
- Selecione o método OCR na lista suspensa Método de OCR .
- Insira a Chave de API do OCR.
Observação:
Esse campo é preenchido automaticamente se você selecionar um UiPath® OCR.
- Insira a URL do OCR. Para ver a lista completa de URLs para OCRs da UiPath, consulte a página Endpoints públicos .
- Escolha se deseja Aplicar OCR em PDFs. O padrão é Auto.
- Ative a alternância Habilitar divisão para permitir que o modelo divida documentos em arquivos individuais antes da classificação. Você também pode habilitar essa opção na tela Configurações do projeto .
-
Selecione Criar.

Resultado
Seu projeto foi criado. A seção Criar fica disponível, onde você pode carregar documentos para extração ou classificação.
Escolha uma das duas opções disponíveis:
- Extrair dados de documentos: extrai campos específicos de seus documentos, como números de faturas, datas e totais. Use esta opção quando precisar extrair campos de documentos.
- Classificar e dividir documentos: classifica documentos por tipo e separa vários documentos dentro de um único arquivo. Use esta opção quando precisar dividir e classificar documentos.
Extração de dados de documentos
- Selecione um tipo de documento.
- Selecione Carregar ou arrastar e soltar seus arquivos dentro do novo tipo de documento. Aguarde o upload finalizar.
Classificar e dividir documentos
Certos arquivos complexos contêm vários tipos de documentos. O divisor treinável detecta onde cada subdocumento começa e termina, e classifica devidamente cada seção.
- Selecione Classificar e Dividir documentos.
- Faça upload de seus pacotes de documentos. Aguarde até que o upload e o processamento terminem.
- Selecione um documento na seção Upload.
- Selecione Dividir. A interface de anotação de divisão é aberta.
Observação:
Se o projeto já tiver um modelo treinado, os documentos carregados serão pré-anotados usando esse modelo. Isso ajuda a acelerar a anotação e permite revisar os resultados da previsão em novos documentos.
- Selecione Novo tipo de documento para criar um tipo de documento para cada item em sua taxonomia. Escolha um tipo de documento predefinido ou crie um personalizado. Para tipos de documentos personalizados, forneça o seguinte:
- Nome: um nome claro e descritivo para o tipo de documento.
- Descrição: uma a três frases explicando o propósito do documento e o que o diferencia de tipos semelhantes.
- Indicadores-chave: campos ou termos separados por vírgulas que identificam exclusivamente este tipo de documento. As descrições e os indicadores-chave afetam diretamente a precisão do modelo. Se as pontuações de classificação forem baixa, refine as descrições antes de adicionar mais dados de treinamento. Exemplo para um tipo de documento de Fatura:
- Descrição: uma solicitação de pagamento formal emitida por um vendedor a um comprador, listando itens de linha, quantidades e valores totais devidos.
- Indicadores-chave: número da fatura, data da fatura, valor total, informações do vendedor, informações do comprador, termos de pagamento Dicas para escrever descrições eficazes:
- Inclua terminologia específica do tipo de documento.
- Se dois tipos de documento forem confundidos com frequência, adicione detalhes de distinção a ambas as descrições.
- Atribua páginas que não sejam necessárias para processamento downstream ao tipo Desconhecido . Isso inclui páginas de cobertura, páginas em branco e planilhas separadoras. O modelo prevê essas páginas como Desconhecidas no runtime.
- Selecione os limites entre tipos de documento para indicar onde cada documento começa e termina.
- Atribua cada intervalo de páginas a um tipo de documento usando o menu suspenso.
- Selecione Confirmar quando você terminar de anotar o documento.
Resultado
Cada subdocumento aparece em seu tipo de documento correspondente na seção Criar . Cada subdocumento é pré-anotado com o esquema de seu tipo de documento atribuído.
Melhor prática de treinamento
Treine em pacotes de documentos de produção originais não divididos — não em documentos individuais pré-divididos.
O modelo aprende padrões de agrupamento de documentos a partir do contexto em torno de cada tipo de documento: o que aparece antes e depois dele em um pacote real. O treinamento em documentos pré-divididos remove esse contexto e reduz a precisão de divisão.
Abordagem recomendada:
- Carregue pacotes de produção que contenham vários tipos de documentos.
- Inclua pacotes que representem o intervalo de ordenações e contagens de documentos vistos em produção.
- Busque um conjunto de dados equilibrado entre todos os tipos de documentos.
Observação:
O treinamento em documentos pré-divisão produz um modelo de trabalho, mas a precisão de divisão é menor do que ao treinar em pacotes originais.
Treinamento do modelo
O treinamento do modelo começa automaticamente após ambas as condições a seguir serem atendidas:
- Pelo menos cinco subdocumentos foram criados e anotados;
Observação:
Por exemplo, se você estiver usando um único PDF, ele deve conter pelo menos cinco subdocumentos. Se você estiver usando dois PDFs, um deve conter pelo menos dois subdocumentos e o outro pelo menos três.
- Um documento ter sido confirmado.
O status do treinamento é visível no canto superior direito do painel Classificação .
Requisitos de dados de treinamento
| Requisito | Detalhes |
|---|---|
| Mínimo de tipos de documentos | 1 |
| Mínimo de total de amostras | Cinco documentos entre todos os tipos de documentos |
| Mínimo de amostras por tipo | 1 |
| Recomendado para resultados confiáveis | Cinquenta a 100 pacotes |
| Tamanho máximo do documento | 160 MB ou 500 páginas |
| Divisão de treinamento/teste | Automático: 80% de treinamento, 20% de teste |
Melhoria de resultados de treinamento
Quando o desempenho for insatisfatório, use uma destas abordagens:
- Refine as descrições e os principais indicadores de tipos de documentos de baixo desempenho.
- Adicione mais amostras de treinamento para tipos de documentos com baixa precisão.
Previsões de divisão e classificação
Sempre que um novo modelo é treinado, todos os documentos do projeto recebem previsões do modelo treinado. Isso permite que você revise o desempenho do modelo de classificação.
A coluna Tipo exibe a verdade fundamental — o tipo de documento conforme anotado. A coluna Tipo previsto mostra o tipo previsto pelo modelo.
Por padrão, apenas pacotes de documentos são exibidos. Para visualizar subdocumentos dentro de cada pacote, selecione Exibir e marque Incluir subdocumentos.
As previsões também estão disponíveis na interface de anotação habilitando a alternância Mostrar previsão .
Compreensão das métricas
Selecione a guia Medição para revisar o desempenho do modelo.
| Métrica | O que ele mede | O que fazer se estiver baixo |
|---|---|---|
| Divisão de F1 | Precisão da detecção de limites de documentos, independente da classificação | Adicione dados de treinamento com exemplos de limites mais variados |
| Classificação de F1 | Precisão da atribuição de tipos de documentos, independente de limites | Adicione mais páginas de treinamento para tipos de documentos de baixo desempenho |
| F1 em geral | Pontuação combinada: a atribuição de limites e tipos deve estar correta | Identifique se a divisão ou classificação é inferior e lide com isso primeiro |
Um subdocumento é contabilizado como correto apenas quando a detecção de limites e a atribuição de tipos estão corretas.
Documentos grandes com muitas páginas Desconhecidas no conjunto de teste podem reduzir as pontuações de forma desproporcional. Se as pontuações parecerem inesperadamente baixa, verifique se os documentos discrepantes estão distorcendo o conjunto de testes.
Consumo do modelo no runtime
Por meio de atividades do IntelligentOCR
Use a atividade Document Understanding Project Classifier do pacote IntelligentOCR. Quando a divisão está habilitada no projeto, a atividade retorna vários ResultadosDaClassificação — um por subdocumento detectado. Itere sobre os resultados para realizar a validação ou extração em cada subdocumento.
Por meio de atividades do Document Understanding
Use a atividade Classify Document .
Por meio da API
Use o ponto de extremidade classify. Quando a divisão está habilitada na versão do projeto, o ponto de extremidade realiza a divisão e retorna resultados de classificação para cada subdocumento identificado.
Importação e exportação
Exportação de um conjunto de dados de modelo treinado
Se uma versão do projeto contiver um classificador de divisor treinado, duas opções de exportação estarão disponíveis:
- Exportação de conjunto de dados por tipo de documento: exportação padrão de dados anotados.
- Exportação de divisores e classificadores: exportação completa do projeto, incluindo o modelo treinado.
Apenas as versões do projeto com um classificador de divisor treinado aparecem na lista suspensa Exportação de divisor e classificador .
Importação para um novo projeto
A opção de importação está disponível na página de classificação vazia. A importação de um arquivo zip atribui documentos a seus tipos de documentos e dispara o treinamento automaticamente.
Limitações
- Disponível apenas em tenants localizados na Europa e nos EUA.
- As páginas não podem ser reordenadas ou excluídas na interface de anotação.
- As informações de divisão não estão disponíveis na página Monitor.
- O retreinamento a partir do Action Center não é compatível com modelos de divisão e classificação.