- Información general
- Contratos de procesamiento de documentos
- Notas relacionadas
- Acerca de los contratos de procesamiento de documento
- Clase Cuadro
- Interfaz IPersistedActivity
- Clase PrettyBoxConverter
- Interfaz IClassifierActivity
- Interfaz IClasificadorProveedorDeCapacidades
- Clase ClassifierDocumentType
- Clase ClassifierResult
- ClassifierCodeActivity Class
- ClassifierNativeActivity Class
- ClassifierAsyncCodeActivity Class
- Clase ClasificadorCapacidadDeTipoDeDocumento
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- Clase
- Clase
- Clase ExtractorDocumentType
- Clase ExtractorDocumentTypeCapabilities
- Clase ExtractorFieldCapability
- Clase
- Clase ExtractorResult
- FieldValue Class
- FieldValueResult Class
- Interfaz ICapabilitiesProvider
- Interfaz IExtractorActivity
- Clase ExtractorPayload
- Enumeración DocumentActionPriority
- Clase DocumentActionData
- Enumeración DocumentActionStatus
- DocumentActionType Enum
- Clase DocumentClassificationActionData
- Clase DocumentValidationActionData
- Clase UserData
- Clase Documento
- Clase DocumentoDividirResultado
- Clase DomExtensions
- Clase Página
- Clase SecciónDePágina
- Clase de polígono
- Clase PolygonConverter
- Clase de metadatos
- Clase GrupoDeWord
- Clase Word
- Enum FuenteDeProcesamiento
- Clase ResultadosTablaCelda
- Clase ResultadosTablaValor
- Clase ResultadosTablaColumnaInfo
- Clase TablaDeResultados
- Enum Rotación
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- Enum TipoDeSección
- Enum TipoDeGrupoDeWord
- Interfaz IDocumentTextProjection
- Clase ResultadoDeClasificación
- Clase ResultadoDeExtracción
- Clase ResultadosDeDocumento
- Clase ResultadosDeLímitesDeDocumento
- Clase ResultadosDePuntoDeDatos
- Clase ResultadosDeValor
- Clase ResultadosDeContenidoDeReferencia
- Clase ResultadosDeValorDeTokens
- Clase ResultadosDeCampoDerivado
- Enum ResultadosDeFuenteDeDatos
- Clase ResultadoDeConstantes
- Clase ValorDeCampoSimple
- Clase ValorDeCampoDeTabla
- Clase GrupoDeDocumento
- Clase TaxonomíaDeDocumento
- Clase TipoDeDocumento
- Clase Campo
- Enum TipoDeCampo
- FieldValueDetails Class
- Clase InformaciónDeLenguaje
- Clase MetadataEntry
- Enumeración de tipo de texto
- Clase TipoDeCampo
- Interfaz de actividad de ITracking
- Interfaz de ITrainableActivity
- Interfaz ITrainableClassifierActivity
- Interfaz ITrainableExtractorActivity
- Clase TrainableClassifierAsyncCodeActivity
- Clase TrainableClassifierCodeActivity
- Clase TrainableClassifierNativeActivity
- Clase TrainableExtractorAsyncCodeActivity
- Clase TrainableExtractorCodeActivity
- Clase TrainableExtractorNativeActivity
- Clase BasicDataPoint: vista previa
- Clase ExtractionResultHandler: vista previa
- Document Understanding ML
- Servidor local de OCR de Document Understanding
- Document Understanding
- Notas relacionadas
- Acerca del paquete de actividades Document Understanding
- Compatibilidad de proyectos
- Configurar la conexión externa
- Establecer contraseña de PDF
- Fusionar PDF
- Obtener el recuento de páginas del PDF
- Extraer texto en PDF
- Extraer imágenes en PDF
- Extraer rango de página en PDF
- Extraer datos del documento
- Cree una tarea de validación y espere
- Esperar la tarea de validación y continuar
- Crear tarea de validación
- Clasificar documento
- Crear tarea de validación de clasificación
- Crear tarea de validación de clasificación y esperar
- Esperar la tarea de validación de clasificación y reanudar
- OCRInteligente
- Notas relacionadas
- Acerca del paquete de actividades IntelligentOCR
- Compatibilidad de proyectos
- Cargar taxonomía
- Digitalizar documento
- Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador de proyectos de Document Understanding
- Clasificador inteligente de palabra clave
- Crear acción de clasificación de documentos
- Crear artefactos de validación de documentos
- Recuperar artefactos de validación de documentos
- Esperar la acción de clasificación de documentos y reanudar
- Entrenar el alcance de los clasificadores
- Entrenador del clasificador basado en palabras clave
- Entrenador del clasificador inteligente de palabra clave
- Alcance de la extracción de información
- Extractor de proyectos de Document Understanding
- Entrenador del extractor de proyectos de Document Understanding
- Extractor basado en regex
- Extractor de forma
- Extractor inteligente de formularios
- Redactar documento
- Crear acción de validación de documentos
- Esperar la acción de validación de documentos y reanudar
- Entrenar el alcance de los Extractores
- Exportar resultados de extracción
- Extractor con aprendizaje automático
- Entrenador de extractor con aprendizaje automático
- Clasificador de aprendizaje automático
- Entrenador del clasificador de aprendizaje automático
- Clasificador generativo
- Extractor generativo
- Configurar autenticación
- Validar documentos con acciones de la aplicación
- Validación manual para digitalizar documentos
- Extracción de datos basada en anclajes utilizando el extractor inteligente de formularios
- Estación de validación
- Actividades generativas: buenas prácticas
- Extractor generativo: buenas prácticas
- Clasificador generativo: buenas prácticas
- Servicios ML
- OCR
- Contratos OCR
- Notas relacionadas
- Acerca de los contratos OCR
- Compatibilidad de proyectos
- IOCRActivity Interface
- OCRAsyncCodeActivity Class
- OCRCodeActivity Class
- OCRNativeActivity Class
- Clase Carácter
- Clase OCRResult
- Clase Word
- FontStyles Enum
- OCRRotation Enum
- Clase OCRCapabilities
- OCRScrapeBase Class
- OCRScrapeFactory Class
- ScrapeControlBase Class
- Enum ScrapeEngineUsages
- ExtraerBaseDelEctor
- Clase ScrapeEngineFactory
- Clase ExtraerEngineProvider
- OmniPage
- PDF
- [No en la lista] Abbyy
- [No en la lista] Abbyy incrustado

Actividades de Document Understanding
Digitalizar documento
UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument
Descripción
Digitaliza un documento, extrayendo su modelo de objeto del documento (DOM, por sus siglas en inglés) y su texto, y almacenándolos en sus correspondientes tipos de variables.
You must assign an OCR engine to this activity by dragging it into the body of the activity. The chosen OCR engine is to be used only if the incoming documents require OCR processing. Visit OCR Engines to check the available OCR engines. The input and output parameters of the selected OCR engine are automatically set by the Digitize Document activity.
Compatibilidad de proyectos
Windows-Legacy | Windows
Configuración
Panel de propiedades
Común
- Nombre para mostrar: el nombre para mostrar de la actividad.
Entrada
-
ApplyOcrOnPdf -Establishes if the OCR process should be applied or not to PDF documents. If set to Yes, the OCR is applied to all PDF pages of the document. If set to No, only digitally typed text is extracted. The default value is Auto, determining if the document requires to apply the OCR algorithm depending on the input document.
-
DegreeOfParalelism - Specifies how many, if any, pages to be analyzed in parallel. The
-1value uses the "Number of Cores on the machine - 1". This means that the activity tries to process as many pages in parallel as the number of cores - 1 value, while specifying a positive value uses that specific number of logical processors. By default, this property is set to-1.Esta propiedad acepta cualquier valor que no sea mayor que
LogicalProcessorCount - 1. -
DetectCheckboxes - Detects the available check-boxes from the document while digitizing it. The default value is True.
-
DocumentPath - The file path of the document you want to digitize. This field supports only strings and
Stringvariables.Nota:- Set the ApplyOcrOnPdf property to Yes for native PDF documents which contain logos, hidden images, or other elements that corrupt the digitization output and might lead to suboptimal extractions and/or classifications.
- Text extraction from PDF files has been upgraded. This results in an optimized extraction process, where both native and scanned text is retrieved at the same time. The process applies OCR only on the images identified in the PDF file. This improvement is available only when the ApplyOCROnPDF option is set to Auto.
Nota:The supported file types for this property field are
.png,.jpe,.jpg,.jpeg,.tiff,.tif, and.pdf.
Otros
- Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.
Salida
- DocumentObjectModel - The Document Object Model (DOM) of the file, stored in a
Documentvariable. This field supports onlyDocumentvariables. - DocumentText - The text extracted from the specified document. This variable can be subsequently used in the Present Validation Station activity. This field supports only
Stringvariables.Nota:Starting with UiPath.IntelligentOCR.Activities package v6.3.0-preview, the Digitize Document activity comes with a default preselected OCR engine, the UiPath® Document OCR engine.
Ambas variables de salida, emparejadas porque son dependientes, pueden utilizarse aún más en el procesamiento de documentos en todo el marco de procesamiento de documentos (clasificación, extracción de datos, validación humana, etc.).
Importante
If the UiPath.IntelligentOCR.Activities package has been updated to v5.1.0, then the ForceApplyOCR parameter has been replaced with the ApplyOcrOnPDF. Here is the compatibility between the old and new parameters:
- ForceApplyOCR = True is replaced by ApplyOcrOnPDF = Yes;
- ForceApplyOCR = False is replaced by ApplyOcrOnPDF = Auto;
- ForceApplyOCR = Empty is replaced by ApplyOcrOnPDF = Auto;
- ForceApplyOCR = Your defined variable is replaced by ApplyOcrOnPDF = Auto.
The Digitize Document activity extracts the text from a PDF file and, for complex documents, it applies pre-processing and post-processing algorithms. This activity can be used together with other Document Understanding activities.
Modelo de objeto de documento
The Document Object Model is captured in a proprietary object. Visit Document Class for more information.
To successfully digitize and process your documents, consider the following advice:
- Para que una imagen se digitalice/procese correctamente, sus dimensiones de ancho y altura deben estar entre 50 y 10 000 píxeles. Cualquier imagen por debajo o por encima de este rango se rechaza, con un mensaje de excepción. Una imagen validada con las dimensiones mencionadas anteriormente y con un tamaño total mayor que 14 MP, se escala a 14 MP, mientras se mantiene la relación de aspecto (relación de ancho o altura).
- Los mejores resultados se obtienen manteniendo el ángulo de oblicuidad entre +/- 20 grados.
Ejemplo de uso de la actividad Digitalizar documento
Visit Manual validation for digitize documents to check how the Digitize Document activity is used in an example that incorporates multiple activities.