activities
latest
false
Importante :
Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática.
Actividades de Document Understanding
Last updated 30 de ago. de 2024

Extraer datos del documento

UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>

Descripción

Extrae datos de un archivo de entrada o de un objeto Datos de documento, y almacena los resultados en un objeto Datos de documento.

Antes de empezar

Requisitos previos

La actividad Extraer datos del documento requiere una actividad que la preceda y que pueda proporcionar un objeto Datos del documento (producido como salida por otras actividades de Document Understanding, por ejemplo, Clasificar documento).

Opciones de entrada
La actividad Extraer datos del documento recibe como entrada una de las siguientes opciones:
  • Datos del documento: de la actividad Clasificar documento
  • Archivo: desde las actividades Obtener archivo/carpeta u Obtener correo electrónico más reciente
Idiomas compatibles para modelos generativos

Los idiomas compatibles para los modelos generativos son los mismos que el motor OCR utilizado, que depende del proyecto. Para los proyectos predefinidos, el motor OCR utilizado es UiPath Document OCR. Para obtener más información, consulta la página Idiomas compatibles con OCR.

Modelos utilizados por la actividad
La actividad Extraer datos del documento utiliza lo siguiente:
  • Puntos finales públicos para modelos listos para usar.
  • Modelos ML personalizados implementados en proyectos de la aplicación Document Understanding.
  • Modelo de extracción generativa.

Compatibilidad de proyectos

Multiplataforma

Configuración

Panel del Diseñador
  • Proyecto: requiere que selecciones tu proyecto de Document Understanding en el menú desplegable. Las opciones disponibles son:
    • Predefinido: el proyecto predeterminado
    • Puedes crear un proyecto personalizado yendo a Document Understanding.
  • Extractor: requiere que selecciones el extractor del proyecto seleccionado. Para el proyecto predefinido, las opciones disponibles son:
    • Cualquiera de los paquetes ML encontrados aquí
      Nota: La actividad Extraer datos del documento anula el tipo de documento con el extractor seleccionado. Esto no es aplicable a los modelos generativos.
    • Generativo
      Nota: Los datos enviados al Extractor generativo se enviarán a una instancia de Modelo LLM no disponible al público, no saldrá de él y, una vez procesados, no se almacenarán ni se utilizarán para el entrenamiento.
  • Solicitud: este campo aparece si eliges la opción Generativo. Solicitud para identificar los campos que se van a extraer, proporcionada como pares clave-valor, donde la clave representa el nombre del campo y el valor una descripción del mismo, lo que ayuda al extractor a identificar el valor correspondiente.Haz clic en el campo y obtendrás una solicitud con las siguientes opciones, proporcionadas en pares:
    • Nombre del campo: requiere que introduzcas el nombre del campo que se extraerá (Ej. Fecha de vencimiento) (límite de 30 caracteres)
    • Solicitud generativa : requiere que proporciones la solicitud como entrada para el extractor generativo. El número máximo de caracteres permitidos es 1000. La respuesta, resultado de la extracción, también llamada Finalización, tiene un límite de 700 palabras. Está limitado a 700 palabras. Esto significa que no puedes extraer más de 700 palabras de una sola solicitud. Si tus requisitos de extracción superan este límite, puedes dividir el documento en varias páginas, procesarlas individualmente y luego combinar los resultados.
    Consejo: Para conocer las buenas prácticas sobre cómo utilizar las solicitudes generativas, consulta la página Extractor generativo - Buenas prácticas .
  • Entrada: requiere que especifiques el archivo en sí o los datos del documento, en caso de que hayas utilizado otras actividades de Document Understanding antes en tu flujo de trabajo (por ejemplo, Clasificar documento).
    Importante: el número máximo de páginas que puede tener un archivo es 500. Los archivos que superan este límite no pueden extraer.
Panel de propiedades

Entrada

  • Tiempo de espera (segundos) : tiempo máximo de ejecución (en segundos) para la llamada al modelo generativo. Si la operación supera este tiempo de espera, se finaliza automáticamente para evitar retrasos o bloqueos. Esta propiedad solo se muestra si el Extractor generativo está seleccionado como extractor.
  • Validación automática : utiliza esta opción para habilitar la validación automática, una capacidad que ayuda a validar los resultados obtenidos para la extracción de datos frente a un modelo generativo. El valor predeterminado para el campo Validación automática es False.
    • Umbral de confianza : este campo se vuelve visible una vez que habilitas la Validación automática. Los resultados de extracción que caen por debajo del umbral se comparan con el modelo de extracción generativa. Si coinciden, el sistema ajusta la confianza de extracción para alcanzar el valor del umbral. Los valores de umbral posibles van de 0 a 100.

      Si el valor se establece en 0, no se aplica ninguna validación. Sin embargo, si estableces un valor específico (de 0 a 100), el sistema comprueba todos los resultados de extracción por debajo de este valor. Por ejemplo, si estableces un umbral de confianza del 80 %, el sistema aplicará la validación generativa a los campos con una confianza inferior al 80 %.

      Nota: La validación automática solo está disponible para modelos de extracción especializados.
  • Generar tipo de datos (vista previa): si se establece en True, indica que la salida debe generarse en función del extractor seleccionado, lo que da como resultado un objeto IDocumentData<ExtractorType> . Alternativamente, si se establece en False, indica que la generación de datos debe omitirse, lo que da como resultado un objeto IDocumentData<DictionaryData> genérico.

    Visita Datos de documento para obtener más detalles y limitaciones disponibles para los dos tipos de objetos.

Salida
  • Datos del documento : todos los datos de campo extraídos del archivo. La información también se puede recibir desde Clasificar documento.

    Visita Datos de documentos para saber cómo funcionan los datos de documentos y cómo consumir los resultados extraídos para campos de valor único y multivalor.

Uso del extractor generativo

Para empezar rápidamente con las capacidades generativas de la actividad Extraer datos del documento, realiza los siguientes pasos:

  1. Añade una actividad Extraer datos del documento .
  2. En la lista desplegable Proyecto , selecciona Predefinido.
  3. Para Extractor, selecciona Extractor generativo.

    La propiedad Solicitud aparece en el cuerpo de la actividad.

  4. En el campo Solicitud , proporciona tus instrucciones como pares clave-valor de diccionario, donde:
    • La clave representa el nombre del campo (ejemplo: dirección de correo electrónico).
    • El valor representa la solicitud generativa: la descripción utilizada por el extractor generativo para identificar el valor correspondiente.

      Por ejemplo, consulta la siguiente tabla para ver una muestra de pares clave-valor:

    Tabla 1. Solicitud de pares clave-valor para el extractor generativo
    Nombre del campoSolicitud generativa
    Nombre"¿Cuál es el nombre del candidato?"
    Trabajo actual"¿Cuál es el trabajo actual del candidato?"
    Empleador"¿Cuál es el empleador actual del candidato?"
    Figura 1. Solicitud de pares de clave-valor para el extractor generativo

    Solicitud de pares de clave-valor para el extractor generativo

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.