Clipboard AI
Más reciente
False
  • Información general
    • Introducción
  • Instalación y configuración
  • Asignación de datos
    • Asignador de datos
    • Extractores de datos
    • Transformaciones
  • Protección de datos
Imagen de fondo del banner
Guía del usuario de Clipboard AI (Beta pública)
Última actualización 18 de mar. de 2024

Extractores de datos

Importante: UiPath Clipboard AI se encuentra actualmente en versión beta pública.

Los extractores de datos pueden utilizarse para recuperar la información pertinente de varios documentos y otras fuentes.

Cuando hablamos de tipos de documentos, hay tres categorías principales:

  • Documentos estructurados: tienen un formato fijo y son fáciles de procesar, lo que te guía a la hora de rellenar los datos necesarios en campos precisos. Estos documentos están diseñados para incluir un determinado tipo de datos. Ejemplos de documentos estructurados: formularios fiscales, encuestas, cuestionarios, etc.
  • Documentos semiestructurados: tienen un formato fijo y partes variables. Los documentos semiestructurados no tienen un formato fijo, en el sentido de que no están vinculados a campos de datos especificados como los documentos estructurados, sino que contienen un conjunto predecible de información, por ejemplo, una factura siempre contiene un identificador único, una fecha o un número de factura, pero la ubicación puede variar en función del proveedor. Estos documentos contienen principalmente pares etiqueta:valor y también pueden contener párrafos. Ejemplo de documentos semiestructurados: facturas, recibos, órdenes de compra, facturas de servicios públicos, etc.
  • Documentos no estructurados: la información no está organizada según un formato fijo. Estos documentos contienen principalmente texto sin formato, la mayoría de los datos están en forma no estructurada dentro del texto. Ejemplos de documentos no estructurados: contratos, correos electrónicos, historiales médicos, etc.

Los extractores de datos pueden variar en función de cómo extraen los datos de los documentos. A este respecto, existen dos tipos de extractores:

  • Extractores de salida fija: entrenados para extraer un conjunto predefinido de información de un documento; por ejemplo, el extractor de facturas siempre intenta extraer el nombre de la empresa, la dirección, el importe total, etc.
  • Extractores de respuestas-preguntas: entrenados para responder preguntas en función de un contexto determinado. Estos extractores se basan en la comprensión del lenguaje natural para analizar el texto y descubrir cuál es el valor exacto que debe extraerse del texto y proporcionar una respuesta adecuada o incluso elegir una opción de una lista de opciones dadas.

Ahora que hemos explicado las diferencias esenciales entre los diseños de documentos y los tipos de extractores de datos, podemos examinar el conjunto de extractores de datos de Clipboard AI:

  • Extractores de documentos específicos
  • Extractor de texto sin formato
  • Extractor de tablas y pares nombre-valor
  • Extractor semiestructurado

Al copiar los datos, se elige automáticamente un extractor. Los resultados de cada extractor son muy diferentes, por lo que es muy recomendable probarlos todos y ver cuál es el más adecuado para tu documento.

Para utilizar un extractor diferente al seleccionado automáticamente, selecciona el botón Cambiar tipo en la parte inferior del asignador. Esto abre el panel de extractores de datos en el que puedes seleccionar otro extractor de la lista. Una vez seleccionado un nuevo extractor, los campos de datos se actualizan en el asignador y puedes comparar los resultados.

Extractores de documentos específicos

Los extractores de documentos específicos son un conjunto de extractores de salida fija entrenados en tipos de documentos específicos. Cada tipo de documento se extrae utilizando su correspondiente modelo de aprendizaje automático Document Understanding, como se indica a continuación:

  • Factura
  • Pasaporte
  • Recibo
  • Tarjeta de identificación
  • Formulario W-2
  • Factura de servicios públicos
  • Orden de compra
  • Formularios web/de escritorio

El tipo de documento identificado automáticamente aparece resaltado y marcado con una estrella. Para cualquier otro tipo de documento, excepto los enumerados, utiliza uno de los otros extractores.

Extractor de texto sin formato

El extractor de texto sin formato es un extractor de preguntas que utiliza GPT3 para recuperar datos de documentos de texto sin formato, páginas web, correos electrónicos, etc. Se puede utilizar en documentos semiestructurados para gestionar las partes variables, como en documentos no estructurados donde el diseño es irrelevante.

Este extractor admite la comprensión semántica y, además de responder preguntas, tiene otras funciones avanzadas, como resumir, traducir automáticamente, clasificar tipos de documentos y detectar sentimientos.

Extractor de tablas y pares nombre-valor

El extractor de tablas y pares nombre-valor es un extractor de salida fija que funciona mejor con documentos que contienen pares etiqueta:valor (por ejemplo, Nombre: John, Apellido: Doe) y tablas.

Extractor semiestructurado

El extractor semiestructurado es un extractor de preguntas y respuestas y, como su nombre indica, puede extraer datos de documentos semiestructurados diferentes de los cubiertos por los extractores de documentos específicos. Por ejemplo, puedes utilizar este extractor para los extractos bancarios, las facturas de venta, los formularios fiscales, etc.

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.