- Primeros pasos
- Instalación y configuración
- Asignación de datos
- Protección de datos
Guía del usuario de Clipboard AI
Los extractores de datos pueden utilizarse para recuperar la información pertinente de varios documentos y otras fuentes.
Cuando hablamos de tipos de documentos, hay tres categorías principales:
- Documentos estructurados : tienen un formato fijo y son fáciles de procesar, lo que te guía para rellenar los datos necesarios en campos precisos. Estos documentos están diseñados para comprender un determinado tipo de datos. Ejemplos de documentos estructurados: formularios fiscales, encuestas, cuestionarios, etc.
- Documentos semiestructurados : tienen un formato fijo y partes variables. Los documentos semiestructurados no tienen un formato fijo en el sentido de que no están vinculados a campos de datos específicos como los documentos estructurados, pero contienen un conjunto de información predecible, por ejemplo, una factura siempre contiene un identificador único, una fecha o un número de factura, pero la ubicación puede variar en función del proveedor. Estos documentos contienen principalmente pares etiqueta:valor y también pueden contener párrafos. Ejemplo de documentos semiestructurados: facturas, recibos, órdenes de compra, facturas de servicios públicos, etc.
- Documentos no estructurados : la información no está organizada según un formato fijo. Estos documentos contienen principalmente texto sin formato, la mayoría de los datos están en forma no estructurada dentro del texto. Ejemplos de documentos no estructurados: contratos, correos electrónicos, registros médicos, etc.
Los extractores de datos pueden variar en función de cómo extraen los datos de los documentos. A este respecto, existen dos tipos de extractores:
- Extractores de salida fijos : entrenados para extraer un conjunto predefinido de información de un documento; por ejemplo, el extractor de facturas siempre intenta extraer el nombre de la empresa, la dirección, la suma total, etc.
- Extractores de preguntas y respuestas : entrenados para responder preguntas en función de un contexto determinado. Estos extractores se basan en la comprensión del lenguaje natural para analizar el texto y descubrir cuál es el valor exacto que debe extraerse del texto y proporcionar una respuesta adecuada o incluso elegir una opción de una lista de opciones dadas.
Clipboard AI utiliza el siguiente conjunto de extractores de datos:
- Extractor universal
- Extractores de documentos específicos
- Extractor de texto sin formato
- Extractor de tablas y pares nombre-valor
El extractor universal
El extractor universal es la opción predeterminada para extraer datos de tus documentos. Escanea tus datos (texto sin formato o tabulares) y decide la mejor solución para extraerlos. Utiliza una combinación de los extractores existentes y también permite consultas para encontrar la mejor coincidencia en tus datos.
Aprende a interactuar con el extractor universal.
Extractores de documentos específicos
Los extractores de documentos específicos son un conjunto de extractores de salida fija entrenados en tipos de documentos específicos. Cada tipo de documento se extrae utilizando su modelo de aprendizaje automático Document Understanding correspondiente, de la siguiente manera:
- Factura
- Pasaporte
- Recibo
- Tarjeta de identificación
- Formulario W-2
- Factura de servicios públicos
- Orden de compra
- Formularios web/de escritorio
Puedes seleccionar el modelo de Document Understanding preferido en función de tu tipo de documento.
Extractor de texto sin formato
El extractor de texto sin formato es un extractor de preguntas que utiliza GPT3 para recuperar datos de documentos de texto sin formato, páginas web, correos electrónicos, etc. Se puede utilizar en documentos semiestructurados para gestionar las partes variables, como en documentos no estructurados donde el diseño es irrelevante.
Este extractor admite la comprensión semántica y, además de responder preguntas, tiene otras funciones avanzadas, como resumir, traducir automáticamente, clasificar tipos de documentos y detectar sentimientos.
Extractor de tablas y pares nombre-valor
El extractor de tablas y pares nombre-valor es un extractor de salida fija que funciona mejor para documentos que contienen tablas y pares Nombre:Valor.