Clipboard AI: extractores de datos

clipboard-ai

latest

false

Guía del usuario de Clipboard AI

Primeros pasos
Instalación y configuración
Asignación de datos
Protección de datos
- Protección de datos

Importante :

Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática. La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Extractores de datos

Los extractores de datos pueden utilizarse para recuperar la información pertinente de varios documentos y otras fuentes.

Cuando hablamos de tipos de documentos, hay tres categorías principales:

Documentos estructurados : tienen un formato fijo y son fáciles de procesar, lo que te guía para rellenar los datos necesarios en campos precisos. Estos documentos están diseñados para comprender un determinado tipo de datos. Ejemplos de documentos estructurados: formularios fiscales, encuestas, cuestionarios, etc.
Documentos semiestructurados : tienen un formato fijo y partes variables. Los documentos semiestructurados no tienen un formato fijo en el sentido de que no están vinculados a campos de datos específicos como los documentos estructurados, pero contienen un conjunto de información predecible, por ejemplo, una factura siempre contiene un identificador único, una fecha o un número de factura, pero la ubicación puede variar en función del proveedor. Estos documentos contienen principalmente pares etiqueta:valor y también pueden contener párrafos. Ejemplo de documentos semiestructurados: facturas, recibos, órdenes de compra, facturas de servicios públicos, etc.
Documentos no estructurados : la información no está organizada según un formato fijo. Estos documentos contienen principalmente texto sin formato, la mayoría de los datos están en forma no estructurada dentro del texto. Ejemplos de documentos no estructurados: contratos, correos electrónicos, registros médicos, etc.

Los extractores de datos pueden variar en función de cómo extraen los datos de los documentos. A este respecto, existen dos tipos de extractores:

Extractores de salida fijos : entrenados para extraer un conjunto predefinido de información de un documento; por ejemplo, el extractor de facturas siempre intenta extraer el nombre de la empresa, la dirección, la suma total, etc.
Extractores de preguntas y respuestas : entrenados para responder preguntas en función de un contexto determinado. Estos extractores se basan en la comprensión del lenguaje natural para analizar el texto y descubrir cuál es el valor exacto que debe extraerse del texto y proporcionar una respuesta adecuada o incluso elegir una opción de una lista de opciones dadas.

Clipboard AI utiliza el siguiente conjunto de extractores de datos:

Extractor universal
Extractores de documentos específicos
Extractor de texto sin formato
Extractor de tablas y pares nombre-valor

El extractor universal

El extractor universal es la opción predeterminada para extraer datos de tus documentos. Escanea tus datos (texto sin formato o tabulares) y decide la mejor solución para extraerlos. Utiliza una combinación de los extractores existentes y también permite consultas para encontrar la mejor coincidencia en tus datos.

Aprende a interactuar con el extractor universal.

Extractores de documentos específicos

Los extractores de documentos específicos son un conjunto de extractores de salida fija entrenados en tipos de documentos específicos. Cada tipo de documento se extrae utilizando su modelo de aprendizaje automático Document Understanding correspondiente, de la siguiente manera:

Factura
Pasaporte
Recibo
Tarjeta de identificación
Formulario W-2
Factura de servicios públicos
Orden de compra
Formularios web/de escritorio

Puedes seleccionar el modelo de Document Understanding preferido en función de tu tipo de documento.

Extractor de texto sin formato

El extractor de texto sin formato es un extractor de preguntas que utiliza GPT3 para recuperar datos de documentos de texto sin formato, páginas web, correos electrónicos, etc. Se puede utilizar en documentos semiestructurados para gestionar las partes variables, como en documentos no estructurados donde el diseño es irrelevante.

Este extractor admite la comprensión semántica y, además de responder preguntas, tiene otras funciones avanzadas, como resumir, traducir automáticamente, clasificar tipos de documentos y detectar sentimientos.

Extractor de tablas y pares nombre-valor

El extractor de tablas y pares nombre-valor es un extractor de salida fija que funciona mejor para documentos que contienen tablas y pares Nombre:Valor.

En esta página

El extractor universal
Extractores de documentos específicos
Extractor de texto sin formato
Extractor de tablas y pares nombre-valor

¿Te ha resultado útil esta página?

AnteriorAsignador de datos

Sig.Uso del extractor universal

El extractor universal​

Extractores de documentos específicos​

Extractor de texto sin formato​

Extractor de tablas y pares nombre-valor​

¿Te ha resultado útil esta página?

El extractor universal

Extractores de documentos específicos

Extractor de texto sin formato

Extractor de tablas y pares nombre-valor