- Visão geral
- Introdução
- Criação de modelos
- Consumo de modelos
- Detalhes do modelo
- Endpoints públicos
- 1040 - tipo de documento
- 1040 Schedule C - tipo de documento
- 1040 Schedule D - tipo de documento
- 1040 Schedule E - tipo de documento
- 1040x - tipo de documento
- 3949a - tipo de documento
- 4506T - tipo de documento
- 709 - tipo de documento
- 941x - tipo de documento
- 9465 - tipo de documento
- ACORD125 — tipo de documento
- ACORD126 — tipo de documento
- ACORD131 — tipo de documento
- ACORD140 — tipo de documento
- ACORD25 - tipo de documento
- Extratos bancários - tipo de documento
- ConhecimentoDeEmbarque - tipo de documento
- Certificado de Constituição - tipo de documento
- Certificado de origem — tipo de documento
- Cheques - tipo de documento
- Certificado de Segurança de Produto Secundário - tipo de documento
- CMS1500 — tipo de documento
- Declaração de Conformidade da UE - tipo de documento
- Demonstrações financeiras - tipo de documento
- FM1003 — tipo de documento
- I9 - tipo de documento
- Cartões de identificação — tipo de documento
- Faturas - tipo de documento
- Faturas da Austrália - tipo de documento
- FaturasChina - Tipo de documento
- Faturas em hebraico - tipo de documento
- Faturas da Índia - Tipo de documento
- Faturas do Japão - tipo de documento
- Envio de faturas - tipo de documento
- Listas de embalagem - tipo de documento
- Contracheques — tipo de documento
- Passaportes - tipo de documento
- Pedidos de compra - tipo de documento
- Recibos - tipo de documento
- Recibos Japão - tipo de documento
- Avisos de remessas - tipo de documento
- UB04 - tipo de documento
- Contas de serviços - tipo de documento
- Títulos de veículos - tipo de documento
- W2 - Tipo de documento
- W9 - tipo de documento
- Idiomas suportados
- Painéis de insights
- Lógica de licenciamento e carregamento
- Como fazer
- Solução de problemas

Guia do usuário de projetos modernos do Document Understanding
Recursos fundamentais
Para automatizar o processamento de documentos, quatro recursos fundamentais são necessários: digitalização, classificação, extração e validação.
A digitalização converte um documento físico em texto legível por máquina, que pode ser processado digitalmente. Embora o Reconhecimento Ótico de Caracteres (OCR) seja uma parte significativa da digitalização, o processo de digitalização é mais complexo e envolve várias etapas, incluindo OCR.
Por exemplo, ao lidar com documentos PDF, o algoritmo de digitalização pode distinguir entre PDFs digitalizados e nativos ou híbridos que contêm imagens digitalizadas e texto nativo. A maior parte do texto pode ser extraída diretamente de um documento PDF nativo mas, algumas vezes, alguns logotipos podem precisar ser lidos usando OCR. O processo de digitalização pode lidar com todas essas situações para garantir a máxima precisão na detecção de texto enquanto está sendo executado de forma rápida e eficiente.
Você pode alterar o OCR usado em seu projeto nas Configurações do projeto. Para obter mais informações, consulte a página Configurar as configurações do projeto. Você pode verificar os mecanismos de OCR disponíveis e os idiomas suportados na seção Idiomas suportados do guia do usuário.
Você pode consultar a página Limitações conhecidas para obter mais informações sobre os arquivos compatíveis, limites de tamanho de imagem e outras especificações.
O objetivo de uma classificação é digitalizar um documento e decidir a que tipo de documento ele pertence. Saber o tipo de um documento é importante, pois diferentes tipos de documentos exigem diferentes técnicas de processamento. Por exemplo, uma fatura precisa ser processada por um modelo de extração de fatura para garantir que todos os campos relevantes sejam extraídos.
A extração de dados é o processo de seleção e recuperação apenas das informações relevantes de um documento. A extração de dados específicos de um documento longo usando a manipulação de string pode ser um desafio. No entanto, o Document UnderstandingTM fornece várias metodologias de extração para diferentes tipos e formatos de documentos. Por exemplo, queremos apenas extrair os campos Nome do fornecedor, Nome do faturamento, Data de vencimento e Total de uma fatura.
Na classificação e extração, os robôs de software usam o conceito de confiança, que mede o nível de certeza de que uma determinada tarefa foi bem realizada. A tarefa pode estar reconhecendo um tipo de documento, identificando um campo ou lendo os dados contidos nele. Nesses casos, a estrutura do Document Understanding permite que você envolva um usuário humano para revisar e validar a saída do robô. No melhor cenário, a entrada humana é usada para treinar a precisão do robô por meio de machine learning.