- Información general
- Contratos de procesamiento de documentos
- Notas relacionadas
- Acerca de los contratos de procesamiento de documento
- Clase Cuadro
- Interfaz IPersistedActivity
- Clase PrettyBoxConverter
- Interfaz IClassifierActivity
- Interfaz IClasificadorProveedorDeCapacidades
- Clase ClassifierDocumentType
- Clase ClassifierResult
- ClassifierCodeActivity Class
- ClassifierNativeActivity Class
- ClassifierAsyncCodeActivity Class
- Clase ClasificadorCapacidadDeTipoDeDocumento
- Clase
- Clase
- Clase ExtractorDocumentType
- Clase ExtractorDocumentTypeCapabilities
- Clase ExtractorFieldCapability
- Clase
- Clase ExtractorResult
- Interfaz ICapabilitiesProvider
- Interfaz IExtractorActivity
- Clase ExtractorPayload
- Enumeración DocumentActionPriority
- Clase DocumentActionData
- Enumeración DocumentActionStatus
- DocumentActionType Enum
- Clase DocumentClassificationActionData
- Clase DocumentValidationActionData
- Clase UserData
- Clase Documento
- Clase DocumentoDividirResultado
- Clase DomExtensions
- Clase Página
- Clase SecciónDePágina
- Clase de polígono
- Clase PolygonConverter
- Clase de metadatos
- Clase GrupoDeWord
- Clase Word
- Enum FuenteDeProcesamiento
- Clase ResultadosTablaCelda
- Clase ResultadosTablaValor
- Clase ResultadosTablaColumnaInfo
- Clase TablaDeResultados
- Enum Rotación
- Enum TipoDeSección
- Enum TipoDeGrupoDeWord
- Interfaz IDocumentTextProjection
- Clase ResultadoDeClasificación
- Clase ResultadoDeExtracción
- Clase ResultadosDeDocumento
- Clase ResultadosDeLímitesDeDocumento
- Clase ResultadosDePuntoDeDatos
- Clase ResultadosDeValor
- Clase ResultadosDeContenidoDeReferencia
- Clase ResultadosDeValorDeTokens
- Clase ResultadosDeCampoDerivado
- Enum ResultadosDeFuenteDeDatos
- Clase ResultadoDeConstantes
- Clase ValorDeCampoSimple
- Clase ValorDeCampoDeTabla
- Clase GrupoDeDocumento
- Clase TaxonomíaDeDocumento
- Clase TipoDeDocumento
- Clase Campo
- Enum TipoDeCampo
- Clase InformaciónDeLenguaje
- Clase MetadataEntry
- Enumeración de tipo de texto
- Clase TipoDeCampo
- Interfaz de actividad de ITracking
- Interfaz de ITrainableActivity
- Interfaz ITrainableClassifierActivity
- Interfaz ITrainableExtractorActivity
- Clase TrainableClassifierAsyncCodeActivity
- Clase TrainableClassifierCodeActivity
- Clase TrainableClassifierNativeActivity
- Clase TrainableExtractorAsyncCodeActivity
- Clase TrainableExtractorCodeActivity
- Clase TrainableExtractorNativeActivity
- Digitalizador de Document Understanding
- Document Understanding ML
- Servidor local de OCR de Document Understanding
- Proceso Document Understanding - Plantilla Studio
- Document Understanding
- Notas relacionadas
- About the Document Understanding activity package
- Compatibilidad de proyectos
- Datos del documento
- Establecer contraseña de PDF
- Fusionar PDF
- Obtener el recuento de páginas del PDF
- Extraer texto en PDF
- Extraer imágenes en PDF
- Extraer rango de página en PDF
- Extraer datos del documento
- Cree una tarea de validación y espere
- Esperar la tarea de validación y continuar
- Crear tarea de validación
- Clasificar documento
- Crear tarea de validación de clasificación
- Crear tarea de validación de clasificación y esperar
- Esperar la tarea de validación de clasificación y reanudar
- OCRInteligente
- Notas relacionadas
- About the IntelligentOCR activity package
- Compatibilidad de proyectos
- Cargar taxonomía
- Digitalizar documento
- Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador inteligente de palabra clave
- Mostrar Estación de Clasificación
- Crear acción de clasificación de documentos
- Esperar la acción de clasificación de documentos y reanudar
- Entrenar el alcance de los clasificadores
- Entrenador del clasificador basado en palabras clave
- Entrenador del clasificador inteligente de palabra clave
- Alcance de la extracción de información
- Extractor basado en regex
- Extractor de forma
- Extractor inteligente de formularios
- Mostrar Estación de Validación
- Crear acción de validación de documentos
- Esperar la acción de validación de documentos y reanudar
- Entrenar el alcance de los Extractores
- Exportar resultados de extracción
- Servicios ML
- OCR
- Contratos OCR
- Notas relacionadas
- Acerca de los contratos OCR
- Compatibilidad de proyectos
- IOCRActivity Interface
- OCRAsyncCodeActivity Class
- OCRCodeActivity Class
- OCRNativeActivity Class
- Clase Carácter
- Clase OCRResult
- Clase Word
- FontStyles Enum
- OCRRotation Enum
- Clase OCRCapabilities
- OCRScrapeBase Class
- OCRScrapeFactory Class
- ScrapeControlBase Class
- Enum ScrapeEngineUsages
- ExtraerBaseDelEctor
- Clase ScrapeEngineFactory
- Clase ExtraerEngineProvider
- OmniPage
- PDF
- [No en la lista] Abbyy
- [No en la lista] Abbyy incrustado
Digitalizar documento
UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument
Digitaliza un documento, extrayendo su modelo de objeto del documento (DOM, por sus siglas en inglés) y su texto, y almacenándolos en sus correspondientes tipos de variables.
Común
- NombreParaMostrar: el nombre de la actividad para ser mostrado.
Entrada
- ApplyOcrOnPdf: establece si el proceso de OCR debe aplicarse o no a los documentos PDF. Si se establece en Sí, el OCR se aplica a todas las páginas PDF del documento. Si se establece en No, solo se extrae el texto escrito digitalmente. El valor predeterminado es Automático, y determina si el documento requiere aplicar el algoritmo OCR en función del documento de entrada.
- GradoDeParalelismo : especifica cuántas páginas, si las hay, que se analizarán en paralelo. El valor
-1
utiliza el "Número de núcleos en la máquina - 1" (lo que significa que intenta procesar tantas páginas en paralelo como el número de núcleos - 1 valor), mientras que al especificar un valor positivo se utiliza ese número específico de procesadores lógicos . De forma predeterminada, esta propiedad está establecida en-1
. - Detectar casillas de verificación: detecta las casillas de verificación disponibles en el documento mientras lo digitaliza. El valor predeterminado es Verdadero.
-
Ruta deldocumento : la ruta del archivo del documento que quieres digitalizar. Este campo solo admite cadenas y variables de cadena.
Nota:- En caso de que no se clasifique un documento que tiene suficientes datos, establece la propiedad ApplyOcrOnPdf como Sí en la actividad Digitalizar documento.
- La extracción de texto de archivos PDF se ha actualizado, lo que ha permitido un proceso de extracción optimizado, en el que tanto el texto nativo como el escaneado se recuperan al mismo tiempo, y el OCR se aplica solo a las imágenes identificadas en el archivo PDF. Esta mejora solo está disponible cuando la opción AplicarOCROnPDF está establecida en Automático.
Nota: los tipos de archivo admitidos para este campo de propiedad son.png
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
y.pdf
.
Otros
- Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.
Salida
- ModeloDeObjetoDeDocumento: el modelo de objeto dedocumento (DOM) del archivo, almacenado en una variable
Document
. Este campo solo admite variablesDocument
. -
TextoDeDocumento : el texto extraído del documento especificado. Esta variable se puede utilizar posteriormente en la actividad Presentar estación de validación . Este campo solo admite variables de cadena.
Note: Starting with UiPath.IntelligentOCR.Activities package v6.3.0-preview, the Digitize Document activity comes with a default preselected OCR engine, the UiPath® Document OCR engine.
Ambas variables de salida, tanto emparejadas como dependientes, se pueden utilizar en el procesamiento de documentos en todo el marco de procesamiento de documentos (clasificación, extracción de datos, validación humana, etc.)
Si el paquete UiPath.IntelligentOCR.Activities se ha actualizado a la versión 5.0 entonces el parámetro ForzarAplicaciónOCR se ha reemplazado por el ApplyOcrOnPDF. Aquí está la compatibilidad entre los parámetros antiguos y los nuevos:
-
ForzarAplicación = Verdadero se reemplaza por ApplicarOcrEnPDF = Sí
-
ForzarAplicaciónOCR = Falso se está reemplazando por ApplyOcrOnPDF = Automático • ForzarAplicaciónOCR = Vacío se reemplaza por ApplyOcrOnPDF = Automático
-
ForzarApplyOCR = <variable definida por el usuario> está siendo reemplazado por ApplyOcrOnPDF = Auto
El modelo de objeto de documento se captura en un objeto propietario documentado aquí.
Para que una imagen se digitalice / procese con éxito, sus dimensiones de ancho y alto deben estar entre 50 y 10 000 píxeles. Cualquier imagen por debajo o por encima de este rango debe ser rechazada, con un mensaje de excepción. Una imagen validada con las dimensiones mencionadas anteriormente y con un tamaño total superior a 14 MP, se reducirá a 14 MP, manteniendo la relación de aspecto (relación ancho / alto).
Los resultados de OCR en documentos escaneados se han mejorado y ahora se obtienen los mejores resultados manteniendo el ángulo de inclinación entre +/- 20 grados.
Puedes ver cómo se utiliza la actividad Digitalizar documento en un ejemplo que incorpora múltiples actividades.
Puedes consultar y descargar el ejemplo desde aquí.