- Visão geral
- Introdução
- Criação de modelos
- Consumo de modelos
- Detalhes do modelo
- Public endpoints for Automation Cloud and Test Cloud
- Public endpoints for Automation Cloud and Test Cloud Public Sector
- 1040 – tipo de documento
- 1040 Agendamento C – tipo de documento
- 1040 Agendamento D – tipo de documento
- 1040 Agendamento E – tipo de documento
- 1040x – tipo de documento
- 3949a – tipo de documento
- 4506T – tipo de documento
- 709 – tipo de documento
- 941x – tipo de documento
- 9465 – tipo de documento
- ACORD125 – tipo de documento
- ACORD126 – tipo de documento
- ACORD131 – tipo de documento
- ACORD140 – tipo de documento
- ACORD25 – tipo de documento
- Extratos bancários – tipo de documento
- Conhecimentos de embarque – tipo de documento
- Certificado de incorporação – tipo de documento
- Certificado de origem – tipo de documento
- Verificações – tipo de documento
- Certificado de produto infantil – tipo de documento
- CMS 1500 – tipo de documento
- Declaração de conformidade UE – tipo de documento
- Demonstrações financeiras – tipo de documento
- FM1003 – tipo de documento
- I9 – tipo de documento
- Cartões de identificação – tipo de documento
- Faturas – tipo de documento
- Faturas2 - tipo de documento
- Faturas Austrália – tipo de documento
- Faturas China – tipo de documento
- Faturas hebraicas – tipo de documento
- Faturas Índia – tipo de documento
- Faturas Japão – tipo de documento
- Faturas de Envio – tipo de documento
- Listas de embalagem – tipo de documento
- Holerites – tipo de documento
- Passaportes – tipo de documento
- Ordens de compra – tipo de documento
- Recibos – tipo de documento.
- Recibos2 - tipo de documento
- Recibos Japão – tipo de documento
- Avisos de Remessa – tipo de documento
- UB04 – tipo de documento
- Divulgações de fechamentos de hipotecas dos EUA - tipo de documento
- Contas de serviços públicos – tipo de documento
- Títulos de veículos – tipo de documento
- W2 – tipo de documento
- W9 – tipo de documento
- Idiomas suportados
- Painéis de insights
- Dados e segurança
- Geração de logs
- Licenciamento
- Como fazer
- Solução de problemas

Guia do usuário do Document Understanding.
Conceitos-chave
Familiarize yourself with the core concepts around UiPath® Document UnderstandingTM.
Aprendizado ativo
Active learning is our modern approach to creating models for Document UnderstandingTM.
O aprendizado ativo fornece uma experiência interativa na qual o algoritmo de aprendizado pode consultar o usuário para rotular dados com as saídas desejadas. Esse processo ajuda a reduzir o tempo e os dados necessários para treinar um modelo de machine learning em até 80%. A IA é usada para orientar o processo, que inclui anotação automática, que normalmente é a tarefa mais demorada. O modelo também fornece recomendações de especialistas para melhorar a precisão usando os conjuntos de dados mais informativos.
Figure 1. How does Active Learning work 
Usando o aprendizado ativo, você também pode monitorar suas automações por meio de recursos analíticos.
Tipos de Documento
Um tipo de documento refere-se à classificação ou categorização de um documento com base em seu conteúdo, formato, finalidade ou outros fatores de distinção. Alguns exemplos podem incluir faturas, recibos, contratos, relatórios, prontuários médicos, documentos legais e outros.
Alguns tipos de documentos têm conteúdo altamente estruturado, enquanto outros consistem principalmente em texto livre. Com base nisso, os documentos são classificados em três formatos principais:
- Structured: documents designed to collect information in a specific format. For example, surveys, tax forms, passports, or licenses are all structured documents.
- Semi-structured: documents that do not follow a strict format and are not bound to specified data fields. Semi-structured documents include invoices, receipts, uility bills, bank statements, and others.
- Unstructured: documents that do not follow a specific or organized model. For example, contracts, leases, or news articles are all unstructured documents.
To learn more about document types, check the Document types section.
IA generativa
Feature availability depends on the cloud platform that you use. For details, refer to the Choosing the deployment type page.
A IA generativa é uma forma de tecnologia de IA que aproveita modelos de machine learning (ML) para criar e gerar novo conteúdo, dados ou informações.
A chave para a maioria das tarefas de IA generativa são grandes modelos de idioma (LLMs). Esses são modelos de ML que são treinados em uma grande quantidade de dados de texto, projetados para gerar texto semelhante a textos humanos. Os LLMs também podem entender e responder a solicitações formulando frases ou parágrafos de maneira humana.
In the context of Document UnderstandingTM, generative AI helps with:
- Information extraction: generative AI models can be used to extract specific information from unstructured or semi-structured documents. For example, it can go through an invoice to retrieve details like date, billed amount, and company name.
- Document classification: ML models are used to auto-categorize documents based on their content. These algorithms 'read' the document, understand its context, and can classify it into predefined categories.
- Data validation: generative AI can check the output of the ML model whenever the confidence score is too low. If both the ML models (generative and specialized) have the same output, a human can skip validating that document. This can improve time spending validating documents, as well as improving the performing of your models by checking the output with the help of a second generative model.
Modelos de ML
Os modelos de ML são como assistentes virtuais que foram treinados para aprender com dados e fazer previsões ou tomar decisões. Esses modelos são essencialmente algoritmos que aprendem a reconhecer padrões com base em dados históricos. Quanto mais dados aos quais eles estiverem expostos, mais eles podem aprimorar suas previsões ou decisões ao longo do tempo.
You can find several out of the box ML models in Document UnderstandingTM. These models help you classify and extract any commonly occurring data points from semi-structured or unstructured documents, with no setup required.
Check the Pre-trained document types page for the full list of pre-trained models and their fields.
Os modelos de ML podem ser treinados em uma maioria de idiomas, desde que o OCR reconheça o documento e o texto com alta confiança.
Reconhecimento de caracteres óptico
O reconhecimento óptico de caracteres (OCR) é uma tecnologia especial usada para converter diferentes tipos de documentos, como documentos de papel digitalizados, arquivos PDF ou imagens obtidas por uma câmera digital, em dados editáveis e pesquisáveis.
A precisão de um mecanismo de OCR depende da qualidade do documento original. Um texto limpo e bem formatado em uma fonte legível normalmente produz a melhor saída.
For more information on the languages supported by the OCR engines options provided by UiPath®, check the OCR Supported Languages page.