- Primeros pasos
- Instalación y configuración
- Asignación de datos
- Protección de datos
Extractores de datos
Los extractores de datos pueden utilizarse para recuperar la información pertinente de varios documentos y otras fuentes.
Cuando hablamos de tipos de documentos, hay tres categorías principales:
- Documentos estructurados: tienen un formato fijo y son fáciles de procesar, lo que te guía a la hora de rellenar los datos necesarios en campos precisos. Estos documentos están diseñados para incluir un determinado tipo de datos. Ejemplos de documentos estructurados: formularios fiscales, encuestas, cuestionarios, etc.
- Documentos semiestructurados: tienen un formato fijo y partes variables. Los documentos semiestructurados no tienen un formato fijo, en el sentido de que no están vinculados a campos de datos especificados como los documentos estructurados, sino que contienen un conjunto predecible de información, por ejemplo, una factura siempre contiene un identificador único, una fecha o un número de factura, pero la ubicación puede variar en función del proveedor. Estos documentos contienen principalmente pares etiqueta:valor y también pueden contener párrafos. Ejemplo de documentos semiestructurados: facturas, recibos, órdenes de compra, facturas de servicios públicos, etc.
- Documentos no estructurados: la información no está organizada según un formato fijo. Estos documentos contienen principalmente texto sin formato, la mayoría de los datos están en forma no estructurada dentro del texto. Ejemplos de documentos no estructurados: contratos, correos electrónicos, historiales médicos, etc.
Los extractores de datos pueden variar en función de cómo extraen los datos de los documentos. A este respecto, existen dos tipos de extractores:
- Extractores de salida fija: entrenados para extraer un conjunto predefinido de información de un documento; por ejemplo, el extractor de facturas siempre intenta extraer el nombre de la empresa, la dirección, el importe total, etc.
- Extractores de preguntas y respuestas : entrenados para responder preguntas en función de un contexto determinado. Estos extractores se basan en la comprensión del lenguaje natural para analizar el texto y descubrir cuál es el valor exacto que debe extraerse del texto y proporcionar una respuesta adecuada o incluso elegir una opción de una lista de opciones dadas.
Clipboard AI utiliza el siguiente conjunto de extractores de datos:
-
Extractor universal
- Extractores de documentos específicos
- Extractor de texto sin formato
- Extractor de tablas y pares nombre-valor
El extractor universal es la opción predeterminada para extraer datos de tus documentos. Escanea tus datos (texto sin formato o tabular) y decide la mejor solución para extraerlos. Utiliza una combinación de los extractores existentes y también permite realizar consultas para encontrar la mejor coincidencia en tus datos.
Aprende a interactuar con el extractor universal.
Los extractores de documentos específicos son un conjunto de extractores de salida fija entrenados en tipos de documentos específicos. Cada tipo de documento se extrae utilizando su modelo de aprendizaje automático de Document Understanding correspondiente, de la siguiente manera:
- Factura
- Pasaporte
- Recibo
- Tarjeta de identificación
- Formulario W-2
- Factura de servicios públicos
- Orden de compra
- Formularios web/de escritorio
Puedes seleccionar el modelo de Document Understanding preferido en función de tu tipo de documento.
El extractor de texto sin formato es un extractor de preguntas que utiliza GPT3 para recuperar datos de documentos de texto sin formato, páginas web, correos electrónicos, etc. Se puede utilizar en documentos semiestructurados para gestionar las partes variables, como en documentos no estructurados donde el diseño es irrelevante.
Este extractor admite la comprensión semántica y, además de responder preguntas, tiene otras funciones avanzadas, como resumir, traducir automáticamente, clasificar tipos de documentos y detectar sentimientos.