activities
latest
false
UiPath logo, featuring letters U and I in white

Actividades de Document Understanding

Última actualización 5 de dic. de 2024

Alcance de la extracción de información

UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope

Descripción

Proporciona un ámbito para las actividades de los extractores, lo que te permite configurarlas de acuerdo con los tipos de documentos definidos en tu taxonomía. La salida de la actividad se almacena en una variable ExtractionResult , que contiene todos los datos extraídos automáticamente, y se puede utilizar como entrada para la actividad Exportar resultados de extracción . Esta actividad también cuenta con un asistente para Configurar extractores , que te permite especificar exactamente qué campos de los tipos de documentos definidos en la taxonomía quieres extraer.

Compatibilidad de proyectos

Windows: heredado | Windows

Configuración

Panel del Diseñador

Entrada

  • RutaDeDocumento: la ruta al documento que deseas validar. Este campo solo admite Strings y variables de String.
    Nota: los tipos de archivo compatibles con este campo de propiedad son .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmpy .pdf.
  • TextoDeDocumento: el texto del propio documento, almacenado en una variable Cadena. Este valor se puede recuperar de la actividad Digitalizar documento. Consulta Digitalizar documento para obtener más información sobre cómo lograr esto. Este campo solo admite cadenas y variables String.
  • ModeloDeObjetoDelDocumento: el modelo de objeto del documento que deseas usar para validar el documento. Este modelo se almacena en una variable Document y se puede recuperar desde la actividad Digitalizar documento. Consulta Digitalizar documento para obtener más información sobre cómo lograr esto. Este campo solo admite variables de Document.
  • Taxonomía : la taxonomía contra la que se va a procesar el documento, almacenada en una variable DocumentTaxonomy . Este objeto se puede obtener usando una actividad Cargar taxonomía . Este campo solo admite variables DocumentTaxonomy .
  • Resultados declasificación : los resultados de ejecutar una actividad de clasificador en el documento especificado, almacenados en un objeto ClassificationResult . Este campo es opcional si especificas un DocumentTypeId en su lugar. Este campo solo admite variables ClassificationResult .
  • IDDeTipoDeDocumento: el ID de tipo de documento, como se encuentra en el Gestor de taxonomía. Este campo es opcional si especificas un archivo en el campo ResultadosDeClasificación. Este campo solo admite cadenas y variables String.

Salida

  • ResultadosDeExtracción: los resultados de extracción del proceso de extracción de datos, almacenados en una variable ExtractionResult.
    Nota: si el intervalo de páginas para la extracción de datos indica que solo se trata de una parte del archivo original, el ámbito de extracción de datos genera un archivo en la carpeta de proyecto TEMP que luego se pasa a los extractores. El archivo temporal contiene solo el rango de páginas que los extractores deben recibir para procesar los documentos.
Panel de propiedades

Autenticación

Las propiedades de autenticación de esta actividad te permiten realizar la validación automática a través de robots locales. Antes de configurar estas propiedades, asegúrate de haber cumplido los requisitos previos mencionados en la página Configurar autenticación . Una vez que se completen estos pasos, puedes proceder a rellenar las propiedades de autenticación de la actividad.

  • Activo de credenciales de runtime: utiliza este campo cuando necesitas acceder a las características de validación automática de Document Understanding mientras el robot está conectado a un Orchestrator local o desde un tenant diferente. Puedes elegir introducir un activo de credenciales, para fines de autenticación, de una de las siguientes maneras:
    • En la lista desplegable, selecciona el activo de credenciales deseado del Orchestrator al que está conectado el UiPath® Robot.
    • Introduce manualmente la ruta al activo de credenciales de Orchestrator donde almacenas las credenciales de la aplicación externa para acceder a las características de validación automática.
      El formato de la ruta debe ser: <OrchestratorFolderName>/<AssetName>.
  • URL del tenant de Runtime: utiliza este campo, junto con el campo Asset de credenciales de Runtime. Introduce la URL del tenant al que se conectará el robot para ejecutar la validación automática. La URL debe estar en el siguiente formato: https://<baseURL>/<OrganizationName>/<TenantName>.

Común

  • NombreParaMostrar: el nombre de la actividad para ser mostrado.

Entrada

  • AplicarAutovalidación: ajusta la confianza utilizando la comprobación cruzada de extracción generativa. Las confianzas para los valores informados que se confirman por IA generativa se aumentarán al 99 %. Habilitar esta característica tiene un consumo adicional de unidades de IA.
    Importante:

    Esta característica forma parte actualmente de un proceso de auditoría y no debe considerarse parte de la autorización de FedRAMP hasta que finalice la revisión. Consulta aquí la lista completa de características actualmente en revisión.

  • Resultados declasificación : los resultados de ejecutar una actividad de clasificador en el documento especificado, almacenados en un objeto ClassificationResult . Este campo es opcional si especificas un DocumentTypeId en su lugar. Este campo solo admite variables ClassificationResult .
  • ModeloDeObjetoDelDocumento: el modelo de objeto del documento que deseas usar para validar el documento. Este modelo se almacena en una variable Document y se puede recuperar desde la actividad Digitalizar documento. Consulta Digitalizar documento para obtener más información sobre cómo lograr esto. Este campo solo admite variables de Document.
  • RutaDeDocumento: la ruta al documento que deseas validar. Este campo solo admite Strings y variables de String.
    Nota: los tipos de archivo compatibles con este campo de propiedad son .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmpy .pdf.
  • TextoDeDocumento: el texto del propio documento, almacenado en una variable Cadena. Este valor se puede recuperar de la actividad Digitalizar documento. Consulta Digitalizar documento para obtener más información sobre cómo lograr esto. Este campo solo admite cadenas y variables String.
  • IDDeTipoDeDocumento: el ID de tipo de documento, como se encuentra en el Gestor de taxonomía. Este campo es opcional si especificas un archivo en el campo ResultadosDeClasificación. Este campo solo admite cadenas y variables String.
  • FormatValuesIfPossible : especifica que si un valor tiene partes derivadas informadas, entonces no se anula por el ámbito de extracción de datos, pero si no tiene partes derivadas, entonces el ámbito de extracción de datos intenta calcularlo. Si la opción se establece en Falso , los valores no tienen formato.
  • AutoValidationConfidenceThreshold : umbral de confianza para la validación generativa. Solo se validarán los valores de campo con confianza por debajo de este umbral. Si se confirman los valores, la confianza de esos valores se establecerá en este umbral.
    Importante:

    Esta característica forma parte actualmente de un proceso de auditoría y no debe considerarse parte de la autorización de FedRAMP hasta que finalice la revisión. Consulta aquí la lista completa de características actualmente en revisión.

  • Taxonomía : la taxonomía contra la que se va a procesar el documento, almacenada en una variable DocumentTaxonomy . Este objeto se puede obtener usando una actividad Cargar taxonomía . Este campo solo admite variables DocumentTaxonomy .

Otros

  • Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.

Salida

  • ResultadosDeExtracción: los resultados de extracción del proceso de extracción de datos, almacenados en una variable ExtractionResult.
    Nota: si el intervalo de páginas para la extracción de datos indica que solo se trata de una parte del archivo original, el ámbito de extracción de datos genera un archivo en la carpeta de proyecto TEMP que luego se pasa a los extractores. El archivo temporal contiene solo el rango de páginas que los extractores deben recibir para procesar los documentos.

Uso del asistente para Configurar extractores

El Asistente Configurar extractores es accesible a través de Ámbito de extracción de datos y te permite elegir qué extractores se aplican a cada tipo de documento y campo.

Desde el cuerpo de la actividad, selecciona Configurar extractores. El botón del asistente estará disponible después de arrastrar al menos un extractor al cuerpo de la actividad Ámbito de extracción de datos.Este asistente muestra todos los tipos de documentos definidos en la taxonomía y sus campos respectivos, y te permite elegir qué extractor deseas utilizar para cada uno.

Figura 1. Descripción general del asistente Configurar extractores

Cada tipo de documento puede ampliarse y sus campos pueden visualizarse en el asistente y seleccionarse para la extracción.

Figura 2. La selección de un extractor para un tipo de documento en el asistente Configurar extractores

El campo Alias del marco puede utilizarse para asignar un extractor a uno o varios entrenadores. Por ejemplo, puedes dar a un extractor de aprendizaje automático el alias R2D2 y luego puedes utilizar el mismo alias para un entrenador de extractor de aprendizaje automático. De este modo, se crea un vínculo entre el extractor y el entrenador, con fines de entrenamiento para el extractor. Cada extractor tiene un alias único, mientras que varios entrenadores pueden compartir el mismo alias.
Puedes configurar el campo Confianza mínima para permitir un umbral de confianza entre 0 y 100. El valor predicho para un campo se considera solo si la puntuación de confianza de la predicción es igual o mayor que la confianza mínima configurada. Si la puntuación de confianza de una predicción es menor que el umbral de confianza mínima, el valor predicho no se almacena en la salida de la actividad Ámbito de extracción de datos.
Consejo: puedes identificar un nivel de confianza óptimo probando varios documentos dentro de tu flujo de trabajo, registrando los resultados en una hoja de cálculo Excel, por ejemplo, y luego analizar qué valor de umbral es el más preciso.

Selecciona Obtener de capacidades del extractor de actualización, para los extractores que admiten esta funcionalidad, para asignar fácilmente tus campos de taxonomía con los campos de extractor disponibles o actualizarlos en caso de que los campos de extractor hayan cambiado.

Las casillas de verificación junto a cada campo en cualquier columna, si se selecciona, hacen que el ámbito del extractor de datos solicite ese campo en particular del extractor. Si la casilla de verificación no está marcada, el ámbito del extractor de datos no solicita un valor para ese campo del extractor.

Las entradas de texto junto a cada campo te permiten asignar campos definidos en tu taxonomía con los campos definidos en la taxonomía interna del extractor, si los hubiera. Para los campos regulares, añade en la entrada de texto el identificador para el campo de destino de la taxonomía interna del extractor. Para los campos de tabla, el campo de tabla principal se asigna en el nivel de tabla y las columnas correspondientes se asignan individualmente.

Nota: al utilizar el extractor de aprendizaje automático en una configuración con campos de columna definidos, estos pueden asignarse a un campo de tabla desde tu taxonomía. Se mostrarán en una colección llamada elementos.

El número de columnas del asistente varía en función del número de extractores presentes en la actividad de ámbito. El nombre de cada columna viene dado por el nombre para mostrar de cada actividad de extractor.

Figura 3. Varios extractores presentes en el asistente Configurar extractores

Si se utilizan múltiples extractores en la actividad, el orden de los extractores en al ámbito define la prioridad. Por ejemplo, consideremos tres extractores. El extractor 1 devuelve un valor aceptable (que está por encima del nivel de confianza mínima) para un campo solicitado en particular, luego ese campo no se solicita cuando se ejecutan el extractor 2 y el extractor 3. Si Extractor 1 y Extractor 2 devuelven valores por debajo del nivel de Confianza mínima para ese campo en particular, o no devuelven nada, los resultados de Extractor 3 se tendrán en cuenta siempre que cumplan con las condiciones de aceptabilidad de la confianza.

Integración de Document Understanding

La actividad Ámbito de extracción de datos forma parte de Document Understanding Solutions. Consulta la Guía de Document Understanding para obtener más información.

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.