- Información general
- Acerca de Document Understanding™
- Introducción
- Tipos de documento
- Funciones fundamentales
- Conceptos clave
- Primeros pasos
- Crear modelos
- Consumir modelos
- Detalles del modelo
- 1040: paquete ML
- 1040 Anexo C - Paquete ML
- 1040 Anexo D - Paquete ML
- 1040 Anexo E - Paquete ML
- 1040x: paquete ML
- 3949a: paquete ML
- 4506T: paquete ML
- 709: paquete ML
- 941x: paquete ML
- 9465: paquete ML
- ACORD125: paquete ML
- ACORD126 - Paquete ML
- ACORD131 - Paquete ML
- ACORD140 - Paquete ML
- ACORD25 - Paquete ML
- Extractos bancarios: paquete ML
- Conocimientos de embarque: paquete ML
- Certificado de incorporación: paquete ML
- Certificado de origen: paquete ML
- Cheques: paquete ML
- Certificado de producto secundario: paquete ML
- CMS1500 - Paquete ML
- Declaración de conformidad de la UE: Paquete ML
- Estados financieros: paquete ML
- FM1003: paquete ML
- I9 - Paquete ML
- Documentos de identidad: paquete ML
- Facturas: paquete ML
- FacturasAustralia: paquete ML
- FacturasChina - Paquete ML
- Facturas en hebreo: paquete ML
- FacturasIndia - Paquete ML
- FacturasJapón - Paquete ML
- Envío de facturas: paquete ML
- Listas de embalaje: paquete ML
- Nóminas - - Paquete ML
- Pasaportes: paquete ML
- Órdenes de compra: paquete ML
- Recibos: paquete ML
- ConsejosDeRemesas: paquete ML
- UB04 - Paquete ML
- Facturas de servicios públicos: paquete ML
- Títulos de vehículos: paquete ML
- W2 - Paquete ML
- W9 - Paquete ML
- Puntos finales públicos
- Idiomas admitidos
- Paneles de insights
- Datos y seguridad
- Lógica de licencias y tarificación
- Tutorial
Funciones fundamentales
Para automatizar el procesamiento de documentos, se requieren cuatro capacidades fundamentales: digitalización, clasificación, extracción y validación.
La digitalización convierte un documento físico en texto legible por la máquina, que luego puede procesarse digitalmente. Aunque el reconocimiento óptico de caracteres (OCR) es una parte significativa de la digitalización, el proceso de digitalización es más complejo e implica varios pasos, incluido el OCR.
Por ejemplo, al tratar con documentos PDF, el algoritmo de digitalización puede distinguir entre los PDF escaneados y los nativos o los híbridos que contienen imágenes escaneadas y texto nativo. La mayoría del texto puede extraerse directamente de un documento PDF nativo, pero en algunos casos, puede que sea necesario leer algunos logotipos utilizando el OCR. El proceso de digitalización puede gestionar todas estas situaciones para garantizar la máxima precisión en la detección de texto mientras se ejecuta de forma rápida y eficiente.
El objetivo de una clasificación es escanear un documento y decidir a qué tipo de documento pertenece. Conocer el tipo de un documento es importante, ya que los diferentes tipos de documentos requieren diferentes técnicas de procesamiento. Por ejemplo, un modelo de extracción de facturas debe procesar una factura para garantizar que se extraen todos los campos relevantes.
Data extraction is the process of selecting and retrieving only the relevant information from a document. Extracting specific data from a lengthy document using string manipulation can be challenging. However, Document UnderstandingTM provides various extraction methodologies for different document types and formats. For example, we only want to extract the Vendor Name, Billing Name, Due Date, and Total fields from an invoice.
En la clasificación y la extracción, los robots de software utilizan el concepto de confianza, que mide el nivel de certeza de que una tarea en particular se ha realizado bien. La tarea puede consistir en reconocer un tipo de documento, identificar un campo o leer los datos que contiene. En estos casos, el marco de Document Understanding te permite involucrar a un usuario humano para que revise y valide la salida del robot. En el mejor de los casos, la aportación humana se utiliza para entrenar la precisión del robot mediante el aprendizaje automático.