activities
latest
false
Importante :
Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática. La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.
UiPath logo, featuring letters U and I in white

Actividades de Document Understanding

Última actualización 5 de dic. de 2024

Extraer datos del documento

UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>

Descripción

Extrae datos de un archivo de entrada o de un objeto Datos de documento, y almacena los resultados en un objeto Datos de documento.

Antes de empezar

Requisitos previos

La actividad Extraer Datos del Documento requiere objetos de entrada de tipo Datos de documento o Archivo.Un posible caso de uso para utilizar esta actividad es precederla con una actividad Clasificar documento, que genera un objeto de tipo Datos de documento.

Opciones de entrada
La actividad Extraer datos del documento recibe como entrada una de las siguientes opciones:
  • Datos del documento: de la actividad Clasificar documento
  • Archivo: desde las actividades Obtener archivo/carpeta u Obtener correo electrónico más reciente
Idiomas compatibles para modelos generativos

Los idiomas compatibles para los modelos generativos son los mismos que el motor OCR utilizado, que depende del proyecto. Para los proyectos predefinidos, el motor OCR utilizado es UiPath Document OCR. Para obtener más información, consulta la página Idiomas compatibles con OCR.

Modelos utilizados por la actividad
La actividad Extraer datos del documento utiliza lo siguiente:
  • Puntos finales públicos para modelos listos para usar.
  • Modelos ML personalizados implementados en proyectos de la aplicación Document Understanding.
  • Modelo de extracción generativa.

Compatibilidad de proyectos

Windows | Multiplataforma

Configuración

Panel del Diseñador
  • Entrada: requiere que especifiques el archivo en sí o los datos del documento, en caso de que hayas utilizado otras actividades de Document Understanding antes en tu flujo de trabajo (por ejemplo, Clasificar documento).
    Importante: el número máximo de páginas que puede tener un archivo es 500. Los archivos que superan este límite no pueden extraer.
  • Proyecto: requiere que selecciones tu proyecto de Document Understanding en la lista desplegable. Las opciones disponibles son:
    • Predefinido : tipo de proyecto clásico que utiliza modelos especializados preentrenados recomendados para escenarios estándar.
    • Proyectos existentes del tenant y la carpeta a la que está conectado.
    • Puedes crear un proyecto personalizado yendo a Document Understanding.

      Para obtener más información, consulta Introducción a la creación de modelos.

    Nota: Si has creado más de 500 proyectos en tu tenant y utilizas la actividad Extraer Datos del Documento, UiPath Studio o Studio Web no mostrará ningún proyecto más allá de los 500 iniciales.Por lo tanto, esos proyectos no se pueden utilizar.
  • Extractor : después de seleccionar un proyecto, también puedes seleccionar un extractor que quieras utilizar.
    • Para el proyecto predefinido, tienes dos opciones:
      • Selecciona un paquete ML. Consulta Modelos listos para usar para obtener una lista de modelos preentrenados que puedes utilizar.
        Nota: La actividad Extraer datos del documento anula el tipo de documento con el extractor seleccionado. Esto no es aplicable a los modelos generativos.
      • Selecciona el extractor generativo.
        Nota: la información enviada al extractor generativo va a una instancia de modelo LLM. Esta instancia no está disponible públicamente, no almacena los datos enviados y no los utiliza para fines de entrenamiento.
        Importante:

        Esta característica forma parte actualmente de un proceso de auditoría y no debe considerarse parte de la autorización de FedRAMP hasta que finalice la revisión. Consulta aquí la lista completa de características actualmente en revisión.

  • Solicitud : este campo aparece si eliges la opción Generativo. Solicitud para identificar los campos que se extraerán, proporcionados como pares clave-valor, donde la clave representa el nombre del campo y el valor una descripción del mismo, ayudando al extractor a identificar el valor correspondiente. Selecciona el campo y obtendrás un mensaje con las siguientes opciones, proporcionadas en pares:
    • Nombre del campo: requiere que introduzcas el nombre del campo que se extraerá (Ej. Fecha de vencimiento) (límite de 30 caracteres)
    • Solicitud generativa : requiere que proporciones la solicitud como entrada para el extractor generativo. El número máximo de caracteres permitidos es 1000. La respuesta, resultado de la extracción, también llamada Finalización, tiene un límite de 700 palabras. Está limitado a 700 palabras. Esto significa que no puedes extraer más de 700 palabras de una sola solicitud. Si tus requisitos de extracción superan este límite, puedes dividir el documento en varias páginas, procesarlas individualmente y luego combinar los resultados.
    Consejo: Para conocer las buenas prácticas sobre cómo utilizar las solicitudes generativas, consulta la página Extractor generativo - Buenas prácticas .
  • Versión (vista previa): utiliza esta propiedad cuando utilices un proyecto moderno de Document Understanding existente. Selecciona la etiqueta que corresponde a la versión del proyecto desde la que quieres procesar los datos. Por ejemplo, si eliges la etiqueta Producción asignada a la Versión 3, la actividad procesa los datos de la Versión 3 de tu proyecto en el entorno de producción.

    El valor predeterminado para Versión es Staging. Si la etiqueta Staging no existe en tu proyecto seleccionado, el valor predeterminado es Production.

    Para obtener más información sobre las versiones, consulta Publicar modelos.

  • Tipo de documento (vista previa): cuando eliges una etiqueta del campo Versión , la actividad selecciona automáticamente el primer tipo de documento implementado de la versión relevante de tu proyecto elegido. Además, la actividad muestra los campos de extracción relacionados con el tipo de documento elegido.
Panel de propiedades

Entrada

  • Tiempo de espera (segundos) : tiempo máximo de ejecución (en segundos) para la llamada al modelo generativo. Si la operación supera este tiempo de espera, se finaliza automáticamente para evitar retrasos o bloqueos. Esta propiedad solo se muestra si el Extractor generativo está seleccionado como extractor.
  • Validación automática : utiliza esta opción para habilitar la validación automática, una capacidad que ayuda a validar los resultados obtenidos para la extracción de datos frente a un modelo generativo. El valor predeterminado para el campo Validación automática es False.
    • Umbral de confianza : este campo se vuelve visible una vez que habilitas la Validación automática. Los resultados de extracción que caen por debajo del umbral se comparan con el modelo de extracción generativa. Si coinciden, el sistema ajusta la confianza de extracción para alcanzar el valor del umbral. Los valores de umbral posibles van de 0 a 100.

      Si el valor se establece en 0, no se aplica ninguna validación. Sin embargo, si estableces un valor específico (de 0 a 100), el sistema comprueba todos los resultados de extracción por debajo de este valor. Por ejemplo, si estableces un umbral de confianza del 80 %, el sistema aplicará la validación generativa a los campos con una confianza inferior al 80 %.

      Nota: La validación automática solo está disponible para modelos de extracción especializados.
  • Generar tipo de datos: si se establece en True, indica que la salida debe generarse en función del extractor seleccionado, dando como resultado un objeto IDocumentData<ExtractorType>.Como alternativa, si se establece en False, indica que la generación de datos debe omitirse, dando como resultado un objeto IDocumentData<DictionaryData> genérico.

    Visita Datos de documento para obtener más detalles y limitaciones disponibles para los dos tipos de objetos.

Salida
  • Datos del documento : todos los datos de campo extraídos del archivo. La información también se puede recibir desde Clasificar documento.

    Visita Datos de documentos para saber cómo funcionan los datos de documentos y cómo consumir los resultados extraídos para campos de valor único y multivalor.

Uso del extractor generativo

Para empezar rápidamente con las capacidades generativas de la actividad Extraer datos del documento, realiza los siguientes pasos:

  1. Añade una actividad Extraer datos del documento .
  2. En la lista desplegable Proyecto , selecciona Predefinido.
  3. Para Extractor, selecciona Extractor generativo.

    La propiedad Solicitud aparece en el cuerpo de la actividad.

  4. En el campo Solicitud , proporciona tus instrucciones como pares clave-valor de diccionario, donde:
    • La clave representa el nombre del campo (ejemplo: dirección de correo electrónico).
    • El valor representa la solicitud generativa: la descripción utilizada por el extractor generativo para identificar el valor correspondiente.

      Por ejemplo, consulta la siguiente tabla para ver una muestra de pares clave-valor:

    Tabla 1. Ejemplos de pares clave-valor para el mensaje del extractor generativo
    Nombre del campoSolicitud generativa
    Nombre"¿Cuál es el nombre del candidato?"
    Trabajo actual"¿Cuál es el trabajo actual del candidato?"
    Empleador"¿Cuál es el empleador actual del candidato?"
    Figura 1. Solicitud de pares de clave-valor para el extractor generativo

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.