Actividades: ámbito de extracción de datos

activities

latest

false

Actividades de Document Understanding

Importante :

Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática. La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Alcance de la extracción de información

Actividad Ámbito de extracción de datos, que proporciona un ámbito para las actividades del extractor configuradas para los tipos de documentos definidos por la taxonomía.

UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope

Descripción

Provides a scope for extractor activities, enabling you to configure them according to the document types defined in your taxonomy. The output of the activity is stored in an ExtractionResult variable, containing all automatically extracted data, and can be used as input for the Export Extraction Results activity. This activity also features a Configure Extractors wizard, which lets you specify exactly what fields from the document types defined in the taxonomy you want to extract.

Compatibilidad de proyectos

Windows: heredado | Windows

Configuración

Panel del Diseñador

Entrada

RutaDelDocumento : la ruta al documento que quieres validar. Este campo solo admite cadenas y variables de cadena.
Nota:
The supported file types for this property field are .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp, and .pdf.
TextoDeDocumento : el texto del propio documento, almacenado en una variable String. Este valor se puede recuperar de la actividad Digitalizar documento . Consulta Digitalizar documento para obtener más información sobre cómo lograrlo. Este campo solo admite cadenas y variables String .
ModeloDeObjetoDelDocumento : el modelo de objeto del documento que quieres utilizar para validar el documento. Este modelo se almacena en una variable Document y se puede recuperar desde la actividad Digitalizar documento . Consulta Digitalizar documento para obtener más información sobre cómo lograrlo. Este campo solo admite variables Document .
Taxonomía : la taxonomía con la que se procesará el documento, almacenada en una variable DocumentTaxonomy . Este objeto se puede obtener utilizando una actividad Cargar taxonomía . Este campo solo admite variables DocumentTaxonomy .
ClassificationResults - The results of running a classifier activity on the specified document, stored in a ClassificationResult object. This field is optional if you specify a DocumentTypeId instead. This field supports only ClassificationResult variables.
IDDeTipoDeDocumento : el ID del tipo de documento, tal y como se encuentra en el Gestor de taxonomía. Este campo es opcional si especificas un archivo en el campo ResultadosDeClasificación . Este campo solo admite cadenas y variables String .

Salida

ExtractionResults - The extraction results of the data extraction process, stored in an ExtractionResult variable.
Nota:
If the page range for data extraction indicates that only a part of the original file is targeted, the Data Extraction Scope generates a file in the TEMP project folder that is then passed to the extractors. The temporary file contains only the page range that extractors should receive for document processing.

Panel de propiedades

Autenticación

Las propiedades de autenticación de esta actividad te permiten realizar la validación automática a través de robots locales. Antes de configurar estas propiedades, asegúrate de haber cumplido los requisitos previos mencionados en la página Configurar autenticación. Una vez que se completen estos pasos, puedes proceder a rellenar las propiedades de autenticación de la actividad.

Activo de credenciales de tiempo de ejecución : utiliza este campo cuando necesites acceder a las características de validación automática de Document Understanding mientras el robot está conectado a un Orchestrator local o desde un tenant diferente. Puedes elegir introducir un Activo de credenciales, con fines de autenticación, de una de las siguientes maneras:
- En la lista desplegable, selecciona el activo de credenciales deseado del Orchestrator al que está conectado el UiPath® Robot.
- Introduce manualmente la ruta al activo de credenciales de Orchestrator donde almacenas las credenciales de la aplicación externa para acceder a las características de validación automática.
  
  El formato de la ruta debe ser: <OrchestratorFolderName>/<AssetName>.
URL del tenant de runtime : utiliza este campo, junto con el campo Activo de credenciales de runtime . Introduce la URL del tenant al que se conectará el robot para ejecutar la validación automática. La URL debe tener el siguiente formato: https://<baseURL>/<OrganizationName>/<TenantName>.

Común

Nombre para mostrar: el nombre para mostrar de la actividad.

Entrada

AplicarValidaciónAutomática : ajusta la confianza mediante la comprobación cruzada de extracción generativa. Si los valores se validan automáticamente, la confianza de esos valores se establecerá en el umbral de confianza. Habilitar esta característica tiene un consumo adicional de AI Unit.
ClassificationResults - The results of running a classifier activity on the specified document, stored in a ClassificationResult object. This field is optional if you specify a DocumentTypeId instead. This field supports only ClassificationResult variables.
ModeloDeObjetoDelDocumento : el modelo de objeto del documento que quieres utilizar para validar el documento. Este modelo se almacena en una variable Document y se puede recuperar desde la actividad Digitalizar documento . Consulta Digitalizar documento para obtener más información sobre cómo lograrlo. Este campo solo admite variables Document .
RutaDelDocumento : la ruta al documento que quieres validar. Este campo solo admite cadenas y variables de cadena.
Nota:
The supported file types for this property field are .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp, and .pdf.
TextoDeDocumento : el texto del propio documento, almacenado en una variable String. Este valor se puede recuperar de la actividad Digitalizar documento . Consulta Digitalizar documento para obtener más información sobre cómo lograrlo. Este campo solo admite cadenas y variables String .
IDDeTipoDeDocumento : el ID del tipo de documento, tal y como se encuentra en el Gestor de taxonomía. Este campo es opcional si especificas un archivo en el campo ResultadosDeClasificación . Este campo solo admite cadenas y variables String .
FormatValuesIfPossible : especifica que si un valor tiene partes derivadas informadas, entonces no se anula por el ámbito de extracción de datos, pero si no tiene partes derivadas, entonces el ámbito de extracción de datos intenta calcularlo. Si la opción se establece en Falso , los valores no tienen formato.
AutoValidationConfidenceThreshold : umbral de confianza para la validación generativa. Solo se validarán los valores de campo con confianza por debajo de este umbral. Si se confirman los valores, la confianza de esos valores se establecerá en este umbral.
Taxonomía : la taxonomía con la que se procesará el documento, almacenada en una variable DocumentTaxonomy . Este objeto se puede obtener utilizando una actividad Cargar taxonomía . Este campo solo admite variables DocumentTaxonomy .

Otros

Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.

Salida

ExtractionResults - The extraction results of the data extraction process, stored in an ExtractionResult variable.
Nota:
If the page range for data extraction indicates that only a part of the original file is targeted, the Data Extraction Scope generates a file in the TEMP project folder that is then passed to the extractors. The temporary file contains only the page range that extractors should receive for document processing.

Uso del asistente para Configurar extractores

The Configure Extractors Wizard can be accessed via the Data Extraction Scope and allows you to choose which extractors are applied to each document type and field.

Desde el cuerpo de la actividad, selecciona Configurar extractores. El botón del asistente estará disponible después de arrastrar al menos un extractor al cuerpo de la actividad Ámbito de extracción de datos.Este asistente muestra todos los tipos de documentos definidos en la taxonomía y sus campos respectivos, y te permite elegir qué extractor deseas utilizar para cada uno.

Figura 1. Descripción general del asistente Configurar extractores

Cada tipo de documento puede ampliarse y sus campos pueden visualizarse en el asistente y seleccionarse para la extracción.

Figura 2. La selección de un extractor para un tipo de documento en el asistente Configurar extractores

El campo Alias del marco puede utilizarse para asignar un extractor a uno o más entrenadores. Por ejemplo, puedes asignar a un Extractor con aprendizaje automático el alias R2D2 y luego puedes utilizar el mismo alias para un Entrenador de extractores con aprendizaje automático. Esto crea un enlace entre el extractor y el entrenador y tiene fines de entrenamiento para el extractor. Cada extractor tiene un alias único, mientras que varios entrenadores pueden compartir el mismo alias.

Puedes configurar el campo Confianza mínima para permitir un umbral de confianza entre 0 y 100. El valor predicho para un campo se considera solo si la puntuación de confianza de la predicción es igual o mayor que la confianza mínima configurada. Si la puntuación de confianza de una predicción es menor que el umbral de confianza mínima, el valor predicho no se almacena en la salida de la actividad Ámbito de extracción de datos.

Consejo:

Puedes identificar un nivel de confianza óptimo probando varios documentos dentro de tu flujo de trabajo, grabando los resultados en una hoja de cálculo Excel, por ejemplo, y luego analizar qué valor de umbral es el más preciso.

Selecciona Obtener de capacidades del extractor de actualización, para los extractores que admiten esta funcionalidad, para asignar fácilmente tus campos de taxonomía con los campos de extractor disponibles o actualizarlos en caso de que los campos de extractor hayan cambiado.

Las casillas de verificación junto a cada campo en cualquier columna, si se selecciona, hacen que el ámbito del extractor de datos solicite ese campo en particular del extractor. Si la casilla de verificación no está marcada, el ámbito del extractor de datos no solicita un valor para ese campo del extractor.

Las entradas de texto junto a cada campo te permiten asignar campos definidos en tu taxonomía con los campos definidos en la taxonomía interna del extractor, si los hubiera. Para los campos regulares, añade en la entrada de texto el identificador para el campo de destino de la taxonomía interna del extractor. Para los campos de tabla, el campo de tabla principal se asigna en el nivel de tabla y las columnas correspondientes se asignan individualmente.

Nota:

Cuando se utiliza el extractor de aprendizaje automático en una configuración con campos de columna definidos, estos pueden asignarse a un campo de tabla desde tu taxonomía. Se mostrarán en una colección llamada elementos.

El número de columnas del asistente varía en función del número de extractores presentes en la actividad de ámbito. El nombre de cada columna viene dado por el nombre para mostrar de cada actividad de extractor.

Figura 3. Varios extractores presentes en el asistente Configurar extractores

Si se utilizan varios extractores en la actividad, el orden de los extractores en el ámbito define su prioridad. Por ejemplo, consideremos tres extractores. El extractor 1 devuelve un valor aceptable (que está por encima del nivel de confianza mínimo) para un campo solicitado en particular, entonces ese campo no se solicita cuando se ejecutan el extractor 2 y el extractor 3 . Si el extractor 1 y el extractor 2 devuelven valores por debajo del nivel de confianza mínima para ese campo en particular, o no devuelven nada, se tienen en cuenta los resultados del extractor 3 , si cumplen las condiciones de aceptabilidad de la confianza.

Integración de Document Understanding

La actividad Ámbito de extracción de datos forma parte de Document Understanding Solutions. Consulta la Guía de Document Understanding para obtener más información.

En esta página

Descripción
Compatibilidad de proyectos
Configuración
Panel del Diseñador
Panel de propiedades
Uso del asistente para Configurar extractores
Integración de Document Understanding

¿Te ha resultado útil esta página?

AnteriorEntrenador del clasificador inteligente de palabra clave

Sig.Extractor de proyectos de Document Understanding

Descripción​

Compatibilidad de proyectos​

Configuración​

Panel del Diseñador​

Entrada​

Salida​

Panel de propiedades​

Autenticación​

Común​

Entrada​

Otros​

Salida​

Uso del asistente para Configurar extractores​

Integración de Document Understanding​

¿Te ha resultado útil esta página?

Descripción

Compatibilidad de proyectos

Configuración

Panel del Diseñador

Entrada

Salida

Panel de propiedades

Autenticación

Común

Entrada

Otros

Salida

Uso del asistente para Configurar extractores

Integración de Document Understanding