- Información general
- Contratos de procesamiento de documentos
- Notas relacionadas
- Acerca de los contratos de procesamiento de documento
- Clase Cuadro
- Interfaz IPersistedActivity
- Clase PrettyBoxConverter
- Interfaz IClassifierActivity
- Interfaz IClasificadorProveedorDeCapacidades
- Clase ClassifierDocumentType
- Clase ClassifierResult
- ClassifierCodeActivity Class
- ClassifierNativeActivity Class
- ClassifierAsyncCodeActivity Class
- Clase ClasificadorCapacidadDeTipoDeDocumento
- Clase
- Clase
- Clase ExtractorDocumentType
- Clase ExtractorDocumentTypeCapabilities
- Clase ExtractorFieldCapability
- Clase
- Clase ExtractorResult
- Interfaz ICapabilitiesProvider
- Interfaz IExtractorActivity
- Clase ExtractorPayload
- Enumeración DocumentActionPriority
- Clase DocumentActionData
- Enumeración DocumentActionStatus
- DocumentActionType Enum
- Clase DocumentClassificationActionData
- Clase DocumentValidationActionData
- Clase UserData
- Clase Documento
- Clase DocumentoDividirResultado
- Clase DomExtensions
- Clase Página
- Clase SecciónDePágina
- Clase de polígono
- Clase PolygonConverter
- Clase de metadatos
- Clase GrupoDeWord
- Clase Word
- Enum FuenteDeProcesamiento
- Clase ResultadosTablaCelda
- Clase ResultadosTablaValor
- Clase ResultadosTablaColumnaInfo
- Clase TablaDeResultados
- Enum Rotación
- Enum TipoDeSección
- Enum TipoDeGrupoDeWord
- Interfaz IDocumentTextProjection
- Clase ResultadoDeClasificación
- Clase ResultadoDeExtracción
- Clase ResultadosDeDocumento
- Clase ResultadosDeLímitesDeDocumento
- Clase ResultadosDePuntoDeDatos
- Clase ResultadosDeValor
- Clase ResultadosDeContenidoDeReferencia
- Clase ResultadosDeValorDeTokens
- Clase ResultadosDeCampoDerivado
- Enum ResultadosDeFuenteDeDatos
- Clase ResultadoDeConstantes
- Clase ValorDeCampoSimple
- Clase ValorDeCampoDeTabla
- Clase GrupoDeDocumento
- Clase TaxonomíaDeDocumento
- Clase TipoDeDocumento
- Clase Campo
- Enum TipoDeCampo
- Clase InformaciónDeLenguaje
- Clase MetadataEntry
- Enumeración de tipo de texto
- Clase TipoDeCampo
- Interfaz de actividad de ITracking
- Interfaz de ITrainableActivity
- Interfaz ITrainableClassifierActivity
- Interfaz ITrainableExtractorActivity
- Clase TrainableClassifierAsyncCodeActivity
- Clase TrainableClassifierCodeActivity
- Clase TrainableClassifierNativeActivity
- Clase TrainableExtractorAsyncCodeActivity
- Clase TrainableExtractorCodeActivity
- Clase TrainableExtractorNativeActivity
- Digitalizador de Document Understanding
- Document Understanding ML
- Servidor local de OCR de Document Understanding
- Proceso Document Understanding - Plantilla Studio
- Document Understanding
- Notas relacionadas
- About the Document Understanding activity package
- Compatibilidad de proyectos
- Datos del documento
- Establecer contraseña de PDF
- Fusionar PDF
- Obtener el recuento de páginas del PDF
- Extraer texto en PDF
- Extraer imágenes en PDF
- Extraer rango de página en PDF
- Extraer datos del documento
- Cree una tarea de validación y espere
- Esperar la tarea de validación y continuar
- Crear tarea de validación
- Clasificar documento
- Crear tarea de validación de clasificación
- Crear tarea de validación de clasificación y esperar
- Esperar la tarea de validación de clasificación y reanudar
- OCRInteligente
- Notas relacionadas
- About the IntelligentOCR activity package
- Compatibilidad de proyectos
- Cargar taxonomía
- Digitalizar documento
- Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Mostrar Estación de Clasificación
- Crear acción de clasificación de documentos
- Esperar la acción de clasificación de documentos y reanudar
- Entrenar el alcance de los clasificadores
- Entrenador del clasificador basado en palabras clave
- Entrenador del clasificador inteligente de palabra clave
- Alcance de la extracción de información
- Extractor basado en regex
- Extractor de forma
- Extractor inteligente de formularios
- Mostrar Estación de Validación
- Crear acción de validación de documentos
- Esperar la acción de validación de documentos y reanudar
- Entrenar el alcance de los Extractores
- Exportar resultados de extracción
- Servicios ML
- OCR
- Contratos OCR
- Notas relacionadas
- Acerca de los contratos OCR
- Compatibilidad de proyectos
- IOCRActivity Interface
- OCRAsyncCodeActivity Class
- OCRCodeActivity Class
- OCRNativeActivity Class
- Clase Carácter
- Clase OCRResult
- Clase Word
- FontStyles Enum
- OCRRotation Enum
- Clase OCRCapabilities
- OCRScrapeBase Class
- OCRScrapeFactory Class
- ScrapeControlBase Class
- Enum ScrapeEngineUsages
- ExtraerBaseDelEctor
- Clase ScrapeEngineFactory
- Clase ExtraerEngineProvider
- OmniPage
- PDF
- [No en la lista] Abbyy
- [No en la lista] Abbyy incrustado
Alcance de la extracción de información
UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope
ExtractionResult
, que contiene todos los datos extraídos automáticamente, y se puede utilizar como entrada para la actividad Exportar resultados de extracción . Esta actividad también cuenta con un asistente para Configurar extractores , que te permite especificar exactamente qué campos de los tipos de documentos definidos en la taxonomía quieres extraer.
Común
- NombreParaMostrar: el nombre de la actividad para ser mostrado.
Entrada
- ApplyAutoValidation - Adjust confidence using Generative Extraction cross-checking. Confidences for reported values that are confirmed by Generative AI will be increased to 99%. Enabling this feature while in public preview has no extra AI Unit consumption. Additional consumption may apply once the feature is in general availability. Follow our release notes for the latest information.
- Resultados declasificación : los resultados de ejecutar una actividad de clasificador en el documento especificado, almacenados en un objeto
ClassificationResult
. Este campo es opcional si especificas un DocumentTypeId en su lugar. Este campo solo admite variablesClassificationResult
. - ModeloDeObjetoDeDocumento: el modelo de objeto dedocumento que quieres usar para validar el documento. Este modelo se almacena en una variable
Document
y se puede recuperar desde la actividad Digitalizar documento . Consulta la documentación de la actividad para obtener más información sobre cómo hacerlo. Este campo solo admite variablesDocument
. -
RutaDeDocumento: la ruta al documento que deseas validar. Este campo solo admite Strings y variables de String.
Nota: los tipos de archivo compatibles con este campo de propiedad son.png
,.gif
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
,.bmp
y.pdf
. - TextoDeDocumento : el texto del propio documento, almacenado en una variable de cadena. Este valor se puede recuperar de la actividad Digitalizar documento . Consulta la documentación de la actividad para obtener más información sobre cómo hacerlo. Este campo solo admite cadenas y variables de cadena.
- IDDelTipoDeDocumento : el identificador del tipo de documento, tal como se encuentra en el Gestor de taxonomía. Este campo es opcional si especificas un archivo en el campo ResultadosDeClasificación . Este campo solo admite cadenas y variables de cadena.
- FormatValuesIfPossible : especifica que si un valor tiene partes derivadas informadas, entonces no se anula por el ámbito de extracción de datos, pero si no tiene partes derivadas, entonces el ámbito de extracción de datos intenta calcularlo. Si la opción se establece en Falso , los valores no tienen formato.
- AutoValidationConfidenceThreshold - Confidence threshold for generative validation. Only field values with confidence below this threshold will be validated. If values are confirmed, the confidence of those values will be set to this threshold.
- Taxonomía : la taxonomía contra la que se va a procesar el documento, almacenada en una variable
DocumentTaxonomy
. Este objeto se puede obtener usando una actividad Cargar taxonomía . Este campo solo admite variablesDocumentTaxonomy
.
Otros
- Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.
Salida
-
ResultadosDeExtracción: los resultados de extracción del proceso de extracción de datos, almacenados en una variable
ExtractionResult
.Nota: si el intervalo de páginas para la extracción de datos indica que solo se trata de una parte del archivo original, el ámbito de extracción de datos genera un archivo en la carpeta de proyectoTEMP
que luego se pasa a los extractores. El archivo temporal contiene solo el rango de páginas que los extractores deben recibir para procesar los documentos.
El Asistente Configurar extractores es accesible a través de Ámbito de extracción de datos y te permite elegir qué extractores se aplican a cada tipo de documento y campo.
Desde el cuerpo de la actividad, haz clic en el botón Configurar extractores . El botón del asistente está disponible después de arrastrar al menos una actividad de extractor al cuerpo de la actividad Ámbito de extracción de datos . Este asistente muestra todos los tipos de documentos definidos en la taxonomía y sus respectivos campos, y te permite elegir qué extractor quieres utilizar para cada uno.
Cada tipo de documento puede ampliarse y sus campos pueden visualizarse en el asistente y seleccionarse para la extracción.
El campo Alias del marco puede utilizarse para asignar un extractor a uno o varios entrenadores. Por ejemplo, puedes asignar el alias R2D2 a un Extractor con aprendizaje automático y utilizar el mismo alias para un Entrenador del extractor con aprendizaje automático. De este modo, se crea un vínculo entre el extractor y el entrenador, con fines de entrenamiento para el extractor. Cada extractor tiene un alias único, mientras que varios entrenadores pueden compartir el mismo alias.
El campo Confianza mínima puede configurarse con un valor entre 0 y 100 y representa el umbral de confianza por encima del cual se tienen en cuenta los datos extraídos. Si el resultado de un campo seleccionado tiene un nivel de confianza inferior al umbral de confianza, este no se incluirá en el resultado final.
El botón Obtener o actualizar las capacidades del extractor, para los extractores que admitan esta funcionalidad, puede utilizarse para asignar fácilmente tus campos de taxonomía con los campos disponibles del extractor o actualizarlos en caso de que los campos del extractor hayan cambiado.
Las casillas de verificación junto a cada campo en cualquier columna, si se seleccionan, hacen que el Ámbito del extractor de datos solicite ese campo en particular del extractor. Si la casilla de verificación no está marcada, el Ámbito del extractor de datos no solicita un valor para ese campo del extractor.
Las entradas de texto junto a cada campo te permiten asignar campos definidos en tu taxonomía con los campos definidos en la taxonomía interna del extractor, si la hubiera. Para los campos regulares, añade en la entrada de texto el identificador del campo de destino de la taxonomía interna del extractor. Para los campos de tabla, el campo de la tabla principal se asigna a nivel de tabla, y las columnas correspondientes se asignan individualmente.
El número de columnas del asistente varía en función del número de extractores presentes en la actividad de ámbito. El nombre de cada columna viene dado por el nombre para mostrar de cada actividad de extractor.
Si se utilizan múltiples extractores en la actividad, el orden de los extractores en al ámbito define la prioridad. Por ejemplo, en la imagen anterior, si el Extractor 1 devuelve un valor aceptable (por encima del nivel de Confianza mínima) para un campo solicitado en particular, entonces ese campo no se solicitará cuando se ejecuten el Extractor 2 y el Extractor 3.Si Extractor 1 y Extractor 2 devuelven valores por debajo del nivel de Confianza mínima para ese campo en particular, o no devuelven nada, los resultados de Extractor 3 se tendrán en cuenta siempre que cumplan con las condiciones de aceptabilidad de la confianza.
Integración de Document Understanding
La actividad Ámbito de extracción de datos forma parte de Document Understanding Solutions. Consulta la Guía de Document Understanding para obtener más información.