- Información general
- Primeros pasos
- Crear modelos
- Consumir modelos
- Detalles del modelo
- Puntos finales públicos para Automation Cloud y Test Cloud
- Puntos finales públicos para Automation Cloud y Test Cloud Public Sector
- 1040: tipo de documento
- 1040 Anexo C: tipo de documento
- 1040 Anexo D: tipo de documento
- 1040 Anexo E: tipo de documento
- 1040x: tipo de documento
- 3949a: tipo de documento
- 4506T: tipo de documento
- 709: tipo de documento
- 941x: tipo de documento
- 9465: tipo de documento
- ACORD125: tipo de documento
- ACORD126: tipo de documento
- ACORD131: tipo de documento
- ACORD140: tipo de documento
- ACORD25: tipo de documento
- Estados de cuenta bancarios: tipo de documento
- Facturas de carga: tipo de documento
- Certificado de incorporación: tipo de documento
- Certificado de origen: tipo de documento
- Comprobaciones: tipo de documento
- Certificado de producto secundario: tipo de documento
- CMS 1500: tipo de documento
- Declaración de conformidad de la UE: tipo de documento
- Estados financieros: tipo de documento
- FM1003: tipo de documento
- I9: tipo de documento
- Tarjetas de identificación: tipo de documento
- Facturas: tipo de documento
- Facturas2: tipo de documento
- Facturas Australia: tipo de documento
- Facturas China: tipo de documento
- Facturas Hebreo: tipo de documento
- Facturas India: tipo de documento
- Facturas Japón: tipo de documento
- Remisión de facturas: tipo de documento
- Listas de embalaje: tipo de documento
- Nóminas: tipo de documento
- Pasaportes: tipo de documento
- Órdenes de compra: tipo de documento
- Recibos: tipo de documento
- Recibos2: tipo de documento
- Recibos Japón: tipo de documento
- Notificaciones de remesas: tipo de documento
- UB04: tipo de documento
- Divulgación de cierre de hipotecas en EE. UU.: tipo de documento
- Facturas de servicios públicos: tipo de documento
- Títulos de vehículos: tipo de documento
- W2: tipo de documento
- W9: tipo de documento
- Idiomas admitidos
- Paneles de insights
- Datos y seguridad
- Registro
- Licencia
- Tutorial
- Solución de problemas

Guía del usuario de Document Understanding
Funciones fundamentales
Para automatizar el procesamiento de documentos, se requieren cuatro capacidades fundamentales: digitalización, clasificación, extracción y validación.
Figura 1. Funciones fundamentales 
Digitalización
La digitalización convierte un documento físico en texto legible por la máquina, que luego puede procesarse digitalmente. Aunque el reconocimiento óptico de caracteres (OCR) es una parte significativa de la digitalización, el proceso de digitalización es más complejo e implica varios pasos, incluido el OCR.
Por ejemplo, al tratar con documentos PDF, el algoritmo de digitalización puede distinguir entre los PDF escaneados y los nativos o los híbridos que contienen imágenes escaneadas y texto nativo. La mayoría del texto puede extraerse directamente de un documento PDF nativo, pero en algunos casos, puede que sea necesario leer algunos logotipos utilizando el OCR. El proceso de digitalización puede gestionar todas estas situaciones para garantizar la máxima precisión en la detección de texto mientras se ejecuta de forma rápida y eficiente.
Puedes cambiar el OCR utilizado en tu proyecto desde la configuración del proyecto. Para obtener más información, consulta la página Configurar ajustes del proyecto. Puedes consultar los motores OCR disponibles y los idiomas compatibles en la sección de idiomas compatibles de la guía del usuario.
Puedes consultar la página Limitaciones conocidas para obtener más información sobre los archivos compatibles, limitaciones de tamaño de imagen y más especificaciones.
Clasificación y división
La disponibilidad de las características depende de la plataforma en la nube que utilices. Para obtener más información, consulta la página Elegir el tipo de implementación.
En la mayoría de los casos de uso, los documentos deben ordenarse en categorías lógicas para que se les puedan aplicar diferentes métodos de procesamiento. El proceso de clasificación de los documentos implica dos tareas:
- División
- Clasificación
Dependiendo de la complejidad del problema, es posible que debas dividir los documentos, clasificarlos o ambos.
La división de documentos solo está disponible cuando se utiliza con IntelligentOCR.
El objetivo de la división es escanear las páginas continuas de un documento y dividirlas en subdocumentos lógicos. Un algoritmo de división de documentos puede ser independiente del tipo de documento, lo que significa que puede dividir cualquier documento independientemente de si es una factura, un contrato o un formulario de solicitud.
Ilustración 2. División de documentos 
El objetivo de una clasificación es escanear un documento y decidir a qué tipo de documento pertenece. Conocer el tipo de un documento es importante, ya que los diferentes tipos de documentos requieren diferentes técnicas de procesamiento. Por ejemplo, un modelo de extracción de facturas debe procesar una factura para garantizar que se extraen todos los campos relevantes.
Ilustración 3. Clasificador de documentos 
Extracción
La extracción de datos es el proceso de seleccionar y recuperar solo la información relevante de un documento. Extraer datos específicos de un documento extenso mediante la manipulación de cadenas puede ser un reto. Sin embargo, Document UnderstandingTM proporciona varias metodologías de extracción para diferentes tipos y formatos de documentos. Por ejemplo, solo queremos extraer los campos Nombre del proveedor, Nombre de facturación, Fecha de vencimiento y Total de una factura.
Ilustración 4. Extracción de datos 
Validación
En la clasificación y la extracción, los robots de software utilizan el concepto de confianza, que mide el nivel de certeza de que una tarea en particular se ha realizado bien. La tarea puede consistir en reconocer un tipo de documento, identificar un campo o leer los datos que contiene. En estos casos, el marco de Document Understanding te permite involucrar a un usuario humano para que revise y valide la salida del robot. En el mejor de los casos, la aportación humana se utiliza para entrenar la precisión del robot mediante el aprendizaje automático.