- Visão geral
- Introdução
- Criação de modelos
- Consumo de modelos
- Detalhes do modelo
- Public endpoints for Automation Cloud and Test Cloud
- Public endpoints for Automation Cloud and Test Cloud Public Sector
- 1040 – tipo de documento
- 1040 Agendamento C – tipo de documento
- 1040 Agendamento D – tipo de documento
- 1040 Agendamento E – tipo de documento
- 1040x – tipo de documento
- 3949a – tipo de documento
- 4506T – tipo de documento
- 709 – tipo de documento
- 941x – tipo de documento
- 9465 – tipo de documento
- ACORD125 – tipo de documento
- ACORD126 – tipo de documento
- ACORD131 – tipo de documento
- ACORD140 – tipo de documento
- ACORD25 – tipo de documento
- Extratos bancários – tipo de documento
- Conhecimentos de embarque – tipo de documento
- Certificado de incorporação – tipo de documento
- Certificado de origem – tipo de documento
- Verificações – tipo de documento
- Certificado de produto infantil – tipo de documento
- CMS 1500 – tipo de documento
- Declaração de conformidade UE – tipo de documento
- Demonstrações financeiras – tipo de documento
- FM1003 – tipo de documento
- I9 – tipo de documento
- Cartões de identificação – tipo de documento
- Faturas – tipo de documento
- Faturas2 - tipo de documento
- Faturas Austrália – tipo de documento
- Faturas China – tipo de documento
- Faturas hebraicas – tipo de documento
- Faturas Índia – tipo de documento
- Faturas Japão – tipo de documento
- Faturas de Envio – tipo de documento
- Listas de embalagem – tipo de documento
- Holerites – tipo de documento
- Passaportes – tipo de documento
- Ordens de compra – tipo de documento
- Recibos – tipo de documento.
- Recibos2 - tipo de documento
- Recibos Japão – tipo de documento
- Avisos de Remessa – tipo de documento
- UB04 – tipo de documento
- Divulgações de fechamentos de hipotecas dos EUA - tipo de documento
- Contas de serviços públicos – tipo de documento
- Títulos de veículos – tipo de documento
- W2 – tipo de documento
- W9 – tipo de documento
- Idiomas suportados
- Painéis de insights
- Dados e segurança
- Geração de logs
- Licenciamento
- Como fazer
- Solução de problemas

Guia do usuário do Document Understanding.
Recursos fundamentais
Para automatizar o processamento de documentos, quatro recursos fundamentais são necessários: digitalização, classificação, extração e validação.
Figure 1. Fundamental capabilities 
Digitalização
A digitalização converte um documento físico em texto legível por máquina, que pode ser processado digitalmente. Embora o Reconhecimento Ótico de Caracteres (OCR) seja uma parte significativa da digitalização, o processo de digitalização é mais complexo e envolve várias etapas, incluindo OCR.
Por exemplo, ao lidar com documentos PDF, o algoritmo de digitalização pode distinguir entre PDFs digitalizados e nativos ou híbridos que contêm imagens digitalizadas e texto nativo. A maior parte do texto pode ser extraída diretamente de um documento PDF nativo mas, algumas vezes, alguns logotipos podem precisar ser lidos usando OCR. O processo de digitalização pode lidar com todas essas situações para garantir a máxima precisão na detecção de texto enquanto está sendo executado de forma rápida e eficiente.
You can change the OCR used in your project from Project settings. For more information, check the Configure project settings page. You can check the available OCR engines and the supported languages from the Supported languages section of the user guide.
You can check the Known limitations page for more information on the supported files, image size limits, and more specifications.
Classificação e divisão
Feature availability depends on the cloud platform that you use. For details, refer to the Choosing the deployment type page.
Na maioria dos casos de uso, os documentos precisam ser classificados em categorias lógicas, para que diferentes métodos de processamento possam ser aplicados a eles. O processo de classificação de documentos envolve duas tarefas:
- Divisão
- Classificação
Dependendo da complexidade do problema, você pode precisar dividir documentos, classificá-los ou ambos.
Document splitting is only available when used with IntelligentOCR.
O objetivo da divisão é digitalizar as páginas contínuas de um documento e dividi-las em subdocumentos lógicos. Um algoritmo divisor de documentos pode ser agnóstico do tipo de documento, o que significa que ele pode dividir qualquer documento, independentemente de ser uma fatura, um contrato ou um formulário de solicitação.
Figure 2. Document splitting 
O objetivo de uma classificação é digitalizar um documento e decidir a que tipo de documento ele pertence. Saber o tipo de um documento é importante, pois diferentes tipos de documentos exigem diferentes técnicas de processamento. Por exemplo, uma fatura precisa ser processada por um modelo de extração de fatura para garantir que todos os campos relevantes sejam extraídos.
Figure 3. Document classifier 
Extração
Data extraction is the process of selecting and retrieving only the relevant information from a document. Extracting specific data from a lengthy document using string manipulation can be challenging. However, Document UnderstandingTM provides various extraction methodologies for different document types and formats. For example, we only want to extract the Vendor Name, Billing Name, Due Date, and Total fields from an invoice.
Figure 4. Data extraction 
Validação
Na classificação e extração, os robôs de software usam o conceito de confiança, que mede o nível de certeza de que uma determinada tarefa foi bem realizada. A tarefa pode estar reconhecendo um tipo de documento, identificando um campo ou lendo os dados contidos nele. Nesses casos, a estrutura do Document Understanding permite que você envolva um usuário humano para revisar e validar a saída do robô. No melhor cenário, a entrada humana é usada para treinar a precisão do robô por meio de machine learning.