- Información general
- Contratos de procesamiento de documentos
- Notas relacionadas
- Acerca de los contratos de procesamiento de documento
- Clase Cuadro
- Interfaz IPersistedActivity
- Clase PrettyBoxConverter
- Interfaz IClassifierActivity
- Interfaz IClasificadorProveedorDeCapacidades
- Clase ClassifierDocumentType
- Clase ClassifierResult
- ClassifierCodeActivity Class
- ClassifierNativeActivity Class
- ClassifierAsyncCodeActivity Class
- Clase ClasificadorCapacidadDeTipoDeDocumento
- Clase
- Clase
- Clase ExtractorDocumentType
- Clase ExtractorDocumentTypeCapabilities
- Clase ExtractorFieldCapability
- Clase
- Clase ExtractorResult
- Interfaz ICapabilitiesProvider
- Interfaz IExtractorActivity
- Clase ExtractorPayload
- Enumeración DocumentActionPriority
- Clase DocumentActionData
- Enumeración DocumentActionStatus
- DocumentActionType Enum
- Clase DocumentClassificationActionData
- Clase DocumentValidationActionData
- Clase UserData
- Clase Documento
- Clase DocumentoDividirResultado
- Clase DomExtensions
- Clase Página
- Clase SecciónDePágina
- Clase de polígono
- Clase PolygonConverter
- Clase de metadatos
- Clase GrupoDeWord
- Clase Word
- Enum FuenteDeProcesamiento
- Clase ResultadosTablaCelda
- Clase ResultadosTablaValor
- Clase ResultadosTablaColumnaInfo
- Clase TablaDeResultados
- Enum Rotación
- Enum TipoDeSección
- Enum TipoDeGrupoDeWord
- Interfaz IDocumentTextProjection
- Clase ResultadoDeClasificación
- Clase ResultadoDeExtracción
- Clase ResultadosDeDocumento
- Clase ResultadosDeLímitesDeDocumento
- Clase ResultadosDePuntoDeDatos
- Clase ResultadosDeValor
- Clase ResultadosDeContenidoDeReferencia
- Clase ResultadosDeValorDeTokens
- Clase ResultadosDeCampoDerivado
- Enum ResultadosDeFuenteDeDatos
- Clase ResultadoDeConstantes
- Clase ValorDeCampoSimple
- Clase ValorDeCampoDeTabla
- Clase GrupoDeDocumento
- Clase TaxonomíaDeDocumento
- Clase TipoDeDocumento
- Clase Campo
- Enum TipoDeCampo
- Clase InformaciónDeLenguaje
- Clase MetadataEntry
- Enumeración de tipo de texto
- Clase TipoDeCampo
- Interfaz de actividad de ITracking
- Interfaz de ITrainableActivity
- Interfaz ITrainableClassifierActivity
- Interfaz ITrainableExtractorActivity
- Clase TrainableClassifierAsyncCodeActivity
- Clase TrainableClassifierCodeActivity
- Clase TrainableClassifierNativeActivity
- Clase TrainableExtractorAsyncCodeActivity
- Clase TrainableExtractorCodeActivity
- Clase TrainableExtractorNativeActivity
- Digitalizador de Document Understanding
- Document Understanding ML
- Servidor local de OCR de Document Understanding
- Document Understanding
- Notas relacionadas
- Acerca del paquete de actividades Document Understanding
- Compatibilidad de proyectos
- Establecer contraseña de PDF
- Fusionar PDF
- Obtener el recuento de páginas del PDF
- Extraer texto en PDF
- Extraer imágenes en PDF
- Extraer rango de página en PDF
- Extraer datos del documento
- Cree una tarea de validación y espere
- Esperar la tarea de validación y continuar
- Crear tarea de validación
- Clasificar documento
- Crear tarea de validación de clasificación
- Crear tarea de validación de clasificación y esperar
- Esperar la tarea de validación de clasificación y reanudar
- OCRInteligente
- Notas relacionadas
- Acerca del paquete de actividades IntelligentOCR
- Compatibilidad de proyectos
- Configurar autenticación
- Cargar taxonomía
- Digitalizar documento
- Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador de proyectos de Document Understanding
- Clasificador inteligente de palabra clave
- Crear acción de clasificación de documentos
- Esperar la acción de clasificación de documentos y reanudar
- Entrenar el alcance de los clasificadores
- Entrenador del clasificador basado en palabras clave
- Entrenador del clasificador inteligente de palabra clave
- Alcance de la extracción de información
- Extractor de proyectos de Document Understanding
- Extractor basado en regex
- Extractor de forma
- Extractor inteligente de formularios
- Mostrar Estación de Validación
- Crear acción de validación de documentos
- Esperar la acción de validación de documentos y reanudar
- Entrenar el alcance de los Extractores
- Exportar resultados de extracción
- Servicios ML
- OCR
- Contratos OCR
- Notas relacionadas
- Acerca de los contratos OCR
- Compatibilidad de proyectos
- IOCRActivity Interface
- OCRAsyncCodeActivity Class
- OCRCodeActivity Class
- OCRNativeActivity Class
- Clase Carácter
- Clase OCRResult
- Clase Word
- FontStyles Enum
- OCRRotation Enum
- Clase OCRCapabilities
- OCRScrapeBase Class
- OCRScrapeFactory Class
- ScrapeControlBase Class
- Enum ScrapeEngineUsages
- ExtraerBaseDelEctor
- Clase ScrapeEngineFactory
- Clase ExtraerEngineProvider
- OmniPage
- PDF
- [No en la lista] Abbyy
- [No en la lista] Abbyy incrustado
Alcance de la extracción de información
UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope
ExtractionResult
, que contiene todos los datos extraídos automáticamente, y se puede utilizar como entrada para la actividad Exportar resultados de extracción . Esta actividad también cuenta con un asistente para Configurar extractores , que te permite especificar exactamente qué campos de los tipos de documentos definidos en la taxonomía quieres extraer.
Panel del Diseñador
Entrada
- RutaDeDocumento: la ruta al documento que deseas validar. Este campo solo admite Strings y variables de String.
Nota: los tipos de archivo compatibles con este campo de propiedad son
.png
,.gif
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
,.bmp
y.pdf
. - TextoDeDocumento: el texto del propio documento, almacenado en una variable Cadena. Este valor se puede recuperar de la actividad Digitalizar documento. Consulta Digitalizar documento para obtener más información sobre cómo lograr esto. Este campo solo admite cadenas y variables
String
. - ModeloDeObjetoDelDocumento: el modelo de objeto del documento que deseas usar para validar el documento. Este modelo se almacena en una variable
Document
y se puede recuperar desde la actividad Digitalizar documento. Consulta Digitalizar documento para obtener más información sobre cómo lograr esto. Este campo solo admite variables deDocument
. - Taxonomía : la taxonomía contra la que se va a procesar el documento, almacenada en una variable
DocumentTaxonomy
. Este objeto se puede obtener usando una actividad Cargar taxonomía . Este campo solo admite variablesDocumentTaxonomy
. - Resultados declasificación : los resultados de ejecutar una actividad de clasificador en el documento especificado, almacenados en un objeto
ClassificationResult
. Este campo es opcional si especificas un DocumentTypeId en su lugar. Este campo solo admite variablesClassificationResult
. - IDDeTipoDeDocumento: el ID de tipo de documento, como se encuentra en el Gestor de taxonomía. Este campo es opcional si especificas un archivo en el campo ResultadosDeClasificación. Este campo solo admite cadenas y variables
String
.
Salida
- ResultadosDeExtracción: los resultados de extracción del proceso de extracción de datos, almacenados en una variable
ExtractionResult
.Nota: si el intervalo de páginas para la extracción de datos indica que solo se trata de una parte del archivo original, el ámbito de extracción de datos genera un archivo en la carpeta de proyectoTEMP
que luego se pasa a los extractores. El archivo temporal contiene solo el rango de páginas que los extractores deben recibir para procesar los documentos.
Panel de propiedades
Autenticación
Las propiedades de autenticación de esta actividad te permiten realizar la validación automática a través de robots locales. Antes de configurar estas propiedades, asegúrate de haber cumplido los requisitos previos mencionados en la página Configurar autenticación . Una vez que se completen estos pasos, puedes proceder a rellenar las propiedades de autenticación de la actividad.
- Activo de credenciales de runtime: utiliza este campo cuando necesitas acceder a las características de validación automática de Document Understanding mientras el robot está conectado a un Orchestrator local o desde un tenant diferente. Puedes elegir introducir un activo de credenciales, para fines de autenticación, de una de las siguientes maneras:
- En la lista desplegable, selecciona el activo de credenciales deseado del Orchestrator al que está conectado UiPath® Robot .
- Introduce manualmente la ruta al activo de credenciales de Orchestrator donde almacenas las credenciales de la aplicación externa para acceder a las características de validación automática.
El formato de la ruta debe ser:
<OrchestratorFolderName>/<AssetName>
.
- URL del tenant de Runtime: utiliza este campo, junto con el campo Asset de credenciales de Runtime. Introduce la URL del tenant al que se conectará el robot para ejecutar la validación automática. La URL debe estar en el siguiente formato:
https://<baseURL>/<OrganizationName>/<TenantName>
.
Común
- NombreParaMostrar: el nombre de la actividad para ser mostrado.
Entrada
- AplicarAutovalidación: ajusta la confianza utilizando la comprobación cruzada de extracción generativa. Las confianzas para los valores informados que se confirman por IA generativa se aumentarán al 99 %. Habilitar esta característica tiene un consumo adicional de unidades de IA.
Importante:
Esta característica forma parte actualmente de un proceso de auditoría y no debe considerarse parte de la autorización de FedRAMP hasta que finalice la revisión. Consulta aquí la lista completa de características actualmente en revisión.
- Resultados declasificación : los resultados de ejecutar una actividad de clasificador en el documento especificado, almacenados en un objeto
ClassificationResult
. Este campo es opcional si especificas un DocumentTypeId en su lugar. Este campo solo admite variablesClassificationResult
. - ModeloDeObjetoDelDocumento: el modelo de objeto del documento que deseas usar para validar el documento. Este modelo se almacena en una variable
Document
y se puede recuperar desde la actividad Digitalizar documento. Consulta Digitalizar documento para obtener más información sobre cómo lograr esto. Este campo solo admite variables deDocument
. - RutaDeDocumento: la ruta al documento que deseas validar. Este campo solo admite Strings y variables de String.
Nota: los tipos de archivo compatibles con este campo de propiedad son
.png
,.gif
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
,.bmp
y.pdf
. - TextoDeDocumento: el texto del propio documento, almacenado en una variable Cadena. Este valor se puede recuperar de la actividad Digitalizar documento. Consulta Digitalizar documento para obtener más información sobre cómo lograr esto. Este campo solo admite cadenas y variables
String
. - IDDeTipoDeDocumento: el ID de tipo de documento, como se encuentra en el Gestor de taxonomía. Este campo es opcional si especificas un archivo en el campo ResultadosDeClasificación. Este campo solo admite cadenas y variables
String
. - FormatValuesIfPossible : especifica que si un valor tiene partes derivadas informadas, entonces no se anula por el ámbito de extracción de datos, pero si no tiene partes derivadas, entonces el ámbito de extracción de datos intenta calcularlo. Si la opción se establece en Falso , los valores no tienen formato.
- AutoValidationConfidenceThreshold : umbral de confianza para la validación generativa. Solo se validarán los valores de campo con confianza por debajo de este umbral. Si se confirman los valores, la confianza de esos valores se establecerá en este umbral.
Importante:
Esta característica forma parte actualmente de un proceso de auditoría y no debe considerarse parte de la autorización de FedRAMP hasta que finalice la revisión. Consulta aquí la lista completa de características actualmente en revisión.
- Taxonomía : la taxonomía contra la que se va a procesar el documento, almacenada en una variable
DocumentTaxonomy
. Este objeto se puede obtener usando una actividad Cargar taxonomía . Este campo solo admite variablesDocumentTaxonomy
.
Otros
- Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.
Salida
- ResultadosDeExtracción: los resultados de extracción del proceso de extracción de datos, almacenados en una variable
ExtractionResult
.Nota: si el intervalo de páginas para la extracción de datos indica que solo se trata de una parte del archivo original, el ámbito de extracción de datos genera un archivo en la carpeta de proyectoTEMP
que luego se pasa a los extractores. El archivo temporal contiene solo el rango de páginas que los extractores deben recibir para procesar los documentos.
El Asistente Configurar extractores es accesible a través de Ámbito de extracción de datos y te permite elegir qué extractores se aplican a cada tipo de documento y campo.
Desde el cuerpo de la actividad, selecciona Configurar extractores. El botón del asistente estará disponible después de arrastrar al menos un extractor al cuerpo de la actividad Ámbito de extracción de datos.Este asistente muestra todos los tipos de documentos definidos en la taxonomía y sus campos respectivos, y te permite elegir qué extractor deseas utilizar para cada uno.
Cada tipo de documento puede ampliarse y sus campos pueden visualizarse en el asistente y seleccionarse para la extracción.
R2D2
y luego puedes utilizar el mismo alias para un entrenador de extractor de aprendizaje automático. De este modo, se crea un vínculo entre el extractor y el entrenador, con fines de entrenamiento para el extractor. Cada extractor tiene un alias único, mientras que varios entrenadores pueden compartir el mismo alias.
Selecciona Obtener de capacidades del extractor de actualización, para los extractores que admiten esta funcionalidad, para asignar fácilmente tus campos de taxonomía con los campos de extractor disponibles o actualizarlos en caso de que los campos de extractor hayan cambiado.
Las casillas de verificación junto a cada campo en cualquier columna, si se selecciona, hacen que el ámbito del extractor de datos solicite ese campo en particular del extractor. Si la casilla de verificación no está marcada, el ámbito del extractor de datos no solicita un valor para ese campo del extractor.
Las entradas de texto junto a cada campo te permiten asignar campos definidos en tu taxonomía con los campos definidos en la taxonomía interna del extractor, si los hubiera. Para los campos regulares, añade en la entrada de texto el identificador para el campo de destino de la taxonomía interna del extractor. Para los campos de tabla, el campo de tabla principal se asigna en el nivel de tabla y las columnas correspondientes se asignan individualmente.
El número de columnas del asistente varía en función del número de extractores presentes en la actividad de ámbito. El nombre de cada columna viene dado por el nombre para mostrar de cada actividad de extractor.
Si se utilizan múltiples extractores en la actividad, el orden de los extractores en al ámbito define la prioridad. Por ejemplo, consideremos tres extractores. El extractor 1 devuelve un valor aceptable (que está por encima del nivel de confianza mínima) para un campo solicitado en particular, luego ese campo no se solicita cuando se ejecutan el extractor 2 y el extractor 3. Si Extractor 1 y Extractor 2 devuelven valores por debajo del nivel de Confianza mínima para ese campo en particular, o no devuelven nada, los resultados de Extractor 3 se tendrán en cuenta siempre que cumplan con las condiciones de aceptabilidad de la confianza.
La actividad Ámbito de extracción de datos forma parte de Document Understanding Solutions. Consulta la Guía de Document Understanding para obtener más información.