- Información general
- Contratos de procesamiento de documentos
- Notas relacionadas
- Acerca de los contratos de procesamiento de documento
- Clase Cuadro
- Interfaz IPersistedActivity
- Clase PrettyBoxConverter
- Interfaz IClassifierActivity
- Interfaz IClasificadorProveedorDeCapacidades
- Clase ClassifierDocumentType
- Clase ClassifierResult
- ClassifierCodeActivity Class
- ClassifierNativeActivity Class
- ClassifierAsyncCodeActivity Class
- Clase ClasificadorCapacidadDeTipoDeDocumento
- Clase
- Clase
- Clase ExtractorDocumentType
- Clase ExtractorDocumentTypeCapabilities
- Clase ExtractorFieldCapability
- Clase
- Clase ExtractorResult
- Interfaz ICapabilitiesProvider
- Interfaz IExtractorActivity
- Clase ExtractorPayload
- Enumeración DocumentActionPriority
- Clase DocumentActionData
- Enumeración DocumentActionStatus
- DocumentActionType Enum
- Clase DocumentClassificationActionData
- Clase DocumentValidationActionData
- Clase UserData
- Clase Documento
- Clase DocumentoDividirResultado
- Clase DomExtensions
- Clase Página
- Clase SecciónDePágina
- Clase de polígono
- Clase PolygonConverter
- Clase de metadatos
- Clase GrupoDeWord
- Clase Word
- Enum FuenteDeProcesamiento
- Clase ResultadosTablaCelda
- Clase ResultadosTablaValor
- Clase ResultadosTablaColumnaInfo
- Clase TablaDeResultados
- Enum Rotación
- Enum TipoDeSección
- Enum TipoDeGrupoDeWord
- Interfaz IDocumentTextProjection
- Clase ResultadoDeClasificación
- Clase ResultadoDeExtracción
- Clase ResultadosDeDocumento
- Clase ResultadosDeLímitesDeDocumento
- Clase ResultadosDePuntoDeDatos
- Clase ResultadosDeValor
- Clase ResultadosDeContenidoDeReferencia
- Clase ResultadosDeValorDeTokens
- Clase ResultadosDeCampoDerivado
- Enum ResultadosDeFuenteDeDatos
- Clase ResultadoDeConstantes
- Clase ValorDeCampoSimple
- Clase ValorDeCampoDeTabla
- Clase GrupoDeDocumento
- Clase TaxonomíaDeDocumento
- Clase TipoDeDocumento
- Clase Campo
- Enum TipoDeCampo
- Clase InformaciónDeLenguaje
- Clase MetadataEntry
- Enumeración de tipo de texto
- Clase TipoDeCampo
- Interfaz de actividad de ITracking
- Interfaz de ITrainableActivity
- Interfaz ITrainableClassifierActivity
- Interfaz ITrainableExtractorActivity
- Clase TrainableClassifierAsyncCodeActivity
- Clase TrainableClassifierCodeActivity
- Clase TrainableClassifierNativeActivity
- Clase TrainableExtractorAsyncCodeActivity
- Clase TrainableExtractorCodeActivity
- Clase TrainableExtractorNativeActivity
- Digitalizador de Document Understanding
- Document Understanding ML
- Servidor local de OCR de Document Understanding
- Document Understanding
- Notas relacionadas
- Acerca del paquete de actividades Document Understanding
- Compatibilidad de proyectos
- Establecer contraseña de PDF
- Fusionar PDF
- Obtener el recuento de páginas del PDF
- Extraer texto en PDF
- Extraer imágenes en PDF
- Extraer rango de página en PDF
- Extraer datos del documento
- Cree una tarea de validación y espere
- Esperar la tarea de validación y continuar
- Crear tarea de validación
- Clasificar documento
- Crear tarea de validación de clasificación
- Crear tarea de validación de clasificación y esperar
- Esperar la tarea de validación de clasificación y reanudar
- OCRInteligente
- Notas relacionadas
- Acerca del paquete de actividades IntelligentOCR
- Compatibilidad de proyectos
- Configurar autenticación
- Cargar taxonomía
- Digitalizar documento
- Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador de proyectos de Document Understanding
- Clasificador inteligente de palabra clave
- Crear acción de clasificación de documentos
- Esperar la acción de clasificación de documentos y reanudar
- Entrenar el alcance de los clasificadores
- Entrenador del clasificador basado en palabras clave
- Entrenador del clasificador inteligente de palabra clave
- Alcance de la extracción de información
- Extractor de proyectos de Document Understanding
- Extractor basado en regex
- Extractor de forma
- Extractor inteligente de formularios
- Mostrar Estación de Validación
- Crear acción de validación de documentos
- Esperar la acción de validación de documentos y reanudar
- Entrenar el alcance de los Extractores
- Exportar resultados de extracción
- Servicios ML
- OCR
- Contratos OCR
- Notas relacionadas
- Acerca de los contratos OCR
- Compatibilidad de proyectos
- IOCRActivity Interface
- OCRAsyncCodeActivity Class
- OCRCodeActivity Class
- OCRNativeActivity Class
- Clase Carácter
- Clase OCRResult
- Clase Word
- FontStyles Enum
- OCRRotation Enum
- Clase OCRCapabilities
- OCRScrapeBase Class
- OCRScrapeFactory Class
- ScrapeControlBase Class
- Enum ScrapeEngineUsages
- ExtraerBaseDelEctor
- Clase ScrapeEngineFactory
- Clase ExtraerEngineProvider
- OmniPage
- PDF
- [No en la lista] Abbyy
- [No en la lista] Abbyy incrustado
Actividades de Document Understanding
Digitalizar documento
UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument
Digitaliza un documento, extrayendo su modelo de objeto del documento (DOM, por sus siglas en inglés) y su texto, y almacenándolos en sus correspondientes tipos de variables.
Panel de propiedades
Común
- NombreParaMostrar: el nombre de la actividad para ser mostrado.
Entrada
- ApplyOcrOnPdf: establece si el proceso de OCR debe aplicarse o no a los documentos PDF. Si se establece en Sí, el OCR se aplica a todas las páginas PDF del documento. Si se establece en No, solo se extrae el texto escrito digitalmente. El valor predeterminado es Automático, y determina si el documento requiere aplicar el algoritmo OCR en función del documento de entrada.
- GradoDeParalelismo: especifica cuántas, si las hay, páginas se analizarán en paralelo. El valor
-1
utiliza el "Número de núcleos en la máquina: 1". Esto significa que la actividad intenta procesar tantas páginas en paralelo como el número de núcleos: valor 1, mientras que la especificación de un valor positivo utiliza ese número específico de procesadores lógicos. De forma predeterminada, esta propiedad está establecida en-1
.Esta propiedad acepta cualquier valor que no sea mayor queLogicalProcessorCount - 1
. - DetectarCasillasDeVerificación: detecta las casillas de verificación disponibles del documento al digitalizarlo. El valor predeterminado es Verdadero.
- RutaDelDocumento: la ruta del archivo del documento que deseas digitalizar. Este campo solo admite cadenas y variables
String
.Nota:- En caso de no poder clasificar un documento que tiene suficientes datos, en la actividad Digitalizar documento, establece la propiedad ApplyOcrOnPdf como Sí.
- La extracción de texto a partir de archivos PDF se ha actualizado. Esto da como resultado un proceso de extracción optimizado, donde tanto el texto nativo como el escaneado se recuperan al mismo tiempo. El proceso aplica OCR solo en las imágenes identificadas en el archivo PDF. Esta mejora solo está disponible cuando la opción AplicarOcrEnPdf se establece en Auto.
Nota: los tipos de archivo admitidos para este campo de propiedad son.png
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
y.pdf
.
Otros
- Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.
Salida
- ModeloDeObjetoDeDocumento: el modelo de objeto dedocumento (DOM) del archivo, almacenado en una variable
Document
. Este campo solo admite variablesDocument
. - TextoDeDocumento: el texto extraído del documento especificado. Esta variable puede utilizarse posteriormente en la actividad Estación de validación presente. Este campo solo admite variables de
String
.Nota: a partir de UiPath.IntelligentOCR.Activities v6.3.0-vista previa, la actividad Digitalizar documento viene con un motor OCR preseleccionado predeterminado, el motor UiPath® Document OCR.
Ambas variables de salida, emparejadas porque son dependientes, pueden utilizarse aún más en el procesamiento de documentos en todo el marco de procesamiento de documentos (clasificación, extracción de datos, validación humana, etc.).
Si el paquete UiPath.IntelligentOCR.Activities se ha actualizado a v5.1.0, el parámetro ForceApplyOCR se ha reemplazado por el ApplyOcrOnPDF. Aquí está la compatibilidad entre los parámetros antiguos y nuevos:
- ForceApplyOCR = Verdadero se reemplaza por ApplyOcrOnPDF = Sí;
- ForceApplyOCR = Falso se reemplaza por ApplyOcrOnPDF = Auto;
- ForceApplyOCR = Vacío se reemplaza por ApplyOcrOnPDF = Auto;
- ForceApplyOCR = tu variable definida se reemplaza por ApplyOcrOnPDF = Auto.
El modelo de objeto de documento se captura en un objeto propietario. Consulta Clase de documento para obtener más información.
- Para que una imagen se digitalice/procese correctamente, sus dimensiones de ancho y altura deben estar entre 50 y 10 000 píxeles. Cualquier imagen por debajo o por encima de este rango se rechaza, con un mensaje de excepción. Una imagen validada con las dimensiones mencionadas anteriormente y con un tamaño total mayor que 14 MP, se escala a 14 MP, mientras se mantiene la relación de aspecto (relación de ancho o altura).
- Los mejores resultados se obtienen manteniendo el ángulo de oblicuidad entre +/- 20 grados.
Consulta Validación manual para digitalizar documentos para comprobar cómo se utiliza la actividad Digitalizar documento en un ejemplo que incorpora varias actividades.