- Información general
- Contratos de procesamiento de documentos
- Notas relacionadas
- Acerca de los contratos de procesamiento de documento
- Clase Cuadro
- Interfaz IPersistedActivity
- Clase PrettyBoxConverter
- Interfaz IClassifierActivity
- Interfaz IClasificadorProveedorDeCapacidades
- Clase ClassifierDocumentType
- Clase ClassifierResult
- ClassifierCodeActivity Class
- ClassifierNativeActivity Class
- ClassifierAsyncCodeActivity Class
- Clase ClasificadorCapacidadDeTipoDeDocumento
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- Clase
- Clase
- Clase ExtractorDocumentType
- Clase ExtractorDocumentTypeCapabilities
- Clase ExtractorFieldCapability
- Clase
- Clase ExtractorResult
- FieldValue Class
- FieldValueResult Class
- Interfaz ICapabilitiesProvider
- Interfaz IExtractorActivity
- Clase ExtractorPayload
- Enumeración DocumentActionPriority
- Clase DocumentActionData
- Enumeración DocumentActionStatus
- DocumentActionType Enum
- Clase DocumentClassificationActionData
- Clase DocumentValidationActionData
- Clase UserData
- Clase Documento
- Clase DocumentoDividirResultado
- Clase DomExtensions
- Clase Página
- Clase SecciónDePágina
- Clase de polígono
- Clase PolygonConverter
- Clase de metadatos
- Clase GrupoDeWord
- Clase Word
- Enum FuenteDeProcesamiento
- Clase ResultadosTablaCelda
- Clase ResultadosTablaValor
- Clase ResultadosTablaColumnaInfo
- Clase TablaDeResultados
- Enum Rotación
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- Enum TipoDeSección
- Enum TipoDeGrupoDeWord
- Interfaz IDocumentTextProjection
- Clase ResultadoDeClasificación
- Clase ResultadoDeExtracción
- Clase ResultadosDeDocumento
- Clase ResultadosDeLímitesDeDocumento
- Clase ResultadosDePuntoDeDatos
- Clase ResultadosDeValor
- Clase ResultadosDeContenidoDeReferencia
- Clase ResultadosDeValorDeTokens
- Clase ResultadosDeCampoDerivado
- Enum ResultadosDeFuenteDeDatos
- Clase ResultadoDeConstantes
- Clase ValorDeCampoSimple
- Clase ValorDeCampoDeTabla
- Clase GrupoDeDocumento
- Clase TaxonomíaDeDocumento
- Clase TipoDeDocumento
- Clase Campo
- Enum TipoDeCampo
- FieldValueDetails Class
- Clase InformaciónDeLenguaje
- Clase MetadataEntry
- Enumeración de tipo de texto
- Clase TipoDeCampo
- Interfaz de actividad de ITracking
- Interfaz de ITrainableActivity
- Interfaz ITrainableClassifierActivity
- Interfaz ITrainableExtractorActivity
- Clase TrainableClassifierAsyncCodeActivity
- Clase TrainableClassifierCodeActivity
- Clase TrainableClassifierNativeActivity
- Clase TrainableExtractorAsyncCodeActivity
- Clase TrainableExtractorCodeActivity
- Clase TrainableExtractorNativeActivity
- Clase BasicDataPoint: vista previa
- Clase ExtractionResultHandler: vista previa
- Document Understanding ML
- Servidor local de OCR de Document Understanding
- Document Understanding
- Notas relacionadas
- Acerca del paquete de actividades Document Understanding
- Compatibilidad de proyectos
- Configurar la conexión externa
- Establecer contraseña de PDF
- Fusionar PDF
- Obtener el recuento de páginas del PDF
- Extraer texto en PDF
- Extraer imágenes en PDF
- Extraer rango de página en PDF
- Extraer datos del documento
- Cree una tarea de validación y espere
- Esperar la tarea de validación y continuar
- Crear tarea de validación
- Clasificar documento
- Crear tarea de validación de clasificación
- Crear tarea de validación de clasificación y esperar
- Esperar la tarea de validación de clasificación y reanudar
- OCRInteligente
- Notas relacionadas
- Acerca del paquete de actividades IntelligentOCR
- Compatibilidad de proyectos
- Cargar taxonomía
- Digitalizar documento
- Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador de proyectos de Document Understanding
- Clasificador inteligente de palabra clave
- Crear acción de clasificación de documentos
- Crear artefactos de validación de documentos
- Recuperar artefactos de validación de documentos
- Esperar la acción de clasificación de documentos y reanudar
- Entrenar el alcance de los clasificadores
- Entrenador del clasificador basado en palabras clave
- Entrenador del clasificador inteligente de palabra clave
- Alcance de la extracción de información
- Extractor de proyectos de Document Understanding
- Entrenador del extractor de proyectos de Document Understanding
- Extractor basado en regex
- Extractor de forma
- Extractor inteligente de formularios
- Redactar documento
- Crear acción de validación de documentos
- Esperar la acción de validación de documentos y reanudar
- Entrenar el alcance de los Extractores
- Exportar resultados de extracción
- Extractor con aprendizaje automático
- Entrenador de extractor con aprendizaje automático
- Clasificador de aprendizaje automático
- Entrenador del clasificador de aprendizaje automático
- Clasificador generativo
- Extractor generativo
- Configurar autenticación
- Validar documentos con acciones de la aplicación
- Validación manual para digitalizar documentos
- Extracción de datos basada en anclajes utilizando el extractor inteligente de formularios
- Estación de validación
- Actividades generativas: buenas prácticas
- Extractor generativo: buenas prácticas
- Clasificador generativo: buenas prácticas
- Servicios ML
- OCR
- Contratos OCR
- Notas relacionadas
- Acerca de los contratos OCR
- Compatibilidad de proyectos
- IOCRActivity Interface
- OCRAsyncCodeActivity Class
- OCRCodeActivity Class
- OCRNativeActivity Class
- Clase Carácter
- Clase OCRResult
- Clase Word
- FontStyles Enum
- OCRRotation Enum
- Clase OCRCapabilities
- OCRScrapeBase Class
- OCRScrapeFactory Class
- ScrapeControlBase Class
- Enum ScrapeEngineUsages
- ExtraerBaseDelEctor
- Clase ScrapeEngineFactory
- Clase ExtraerEngineProvider
- OmniPage
- PDF
- [No en la lista] Abbyy
- [No en la lista] Abbyy incrustado
Actividades de Document Understanding
UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument
Descripción
Digitaliza un documento, extrayendo su modelo de objeto del documento (DOM, por sus siglas en inglés) y su texto, y almacenándolos en sus correspondientes tipos de variables.
Debes asignar un motor OCR a esta actividad arrastrándolo al cuerpo de la actividad. El motor OCR elegido se utilizará solo si los documentos entrantes requieren procesamiento OCR. Consulta Motores OCR para comprobar los motores OCR disponibles. Los parámetros de entrada y salida del motor OCR seleccionado se establecen automáticamente por la actividad Digitalizar documento .
Compatibilidad de proyectos
Windows-Legacy | Windows
Configuración
Panel de propiedades
Común
- Nombre para mostrar: el nombre para mostrar de la actividad.
Entrada
-
AplicarOcrEnPdf : establece si el proceso OCR debe aplicarse o no a los documentos PDF. Si se establece en Sí, el OCR se aplica a todas las páginas PDF del documento. Si se establece en No, solo se extrae el texto escrito digitalmente. El valor predeterminado es Automático, que determina si el documento requiere aplicar el algoritmo OCR en función del documento de entrada.
-
GradoDeParalelismo : especifica cuántas páginas, si las hay, se analizarán en paralelo. El valor
-1utiliza el "Número de núcleos en la máquina: 1". Esto significa que la actividad intenta procesar tantas páginas en paralelo como el número de núcleos - 1 valor, mientras que especificar un valor positivo utiliza ese número específico de procesadores lógicos. De forma predeterminada, esta propiedad está establecida en-1.Esta propiedad acepta cualquier valor que no sea mayor que
LogicalProcessorCount - 1. -
DetectarCasillasDeVerificación : detecta las casillas de verificación disponibles del documento mientras lo digitaliza. El valor predeterminado es Verdadero.
-
RutaDelDocumento : la ruta del archivo del documento que quieres digitalizar. Este campo solo admite cadenas y variables
String.Nota:- Establece la propiedad ApplyOcrOnPdf en Sí para los documentos PDF nativos que contienen logotipos, imágenes ocultas u otros elementos que corrompen la salida de digitalización y pueden dar lugar a extracciones y/o clasificaciones subóptimas.
- La extracción de texto a partir de archivos PDF se ha actualizado. Esto da como resultado un proceso de extracción optimizado, donde tanto el texto nativo como el escaneado se recuperan al mismo tiempo. El proceso aplica OCR solo en las imágenes identificadas en el archivo PDF. Esta mejora solo está disponible cuando la opción AplicarOcrEnPdf se establece en Auto.
Nota:Los tipos de archivo compatibles para este campo de propiedad son
.png,.jpe,.jpg,.jpeg,.tiff,.tify.pdf.
Otros
- Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.
Salida
- DocumentObjectModel - The Document Object Model (DOM) of the file, stored in a
Documentvariable. This field supports onlyDocumentvariables. - TextoDeDocumento : el texto extraído del documento especificado. Esta variable puede utilizarse posteriormente en la actividad Estación de validación presente . Este campo solo admite variables
String.Nota:A partir del paquete UiPath.IntelligentOCR.Activities v6.3.0-preview, la actividad Digitalizar documento viene con un motor OCR preseleccionado por defecto, el motor UiPath® Document OCR .
Ambas variables de salida, emparejadas porque son dependientes, pueden utilizarse aún más en el procesamiento de documentos en todo el marco de procesamiento de documentos (clasificación, extracción de datos, validación humana, etc.).
Importante
Si el paquete UiPath.IntelligentOCR.Activities se ha actualizado a v5.1.0, el parámetro ForceApplyOCR se ha reemplazado por el ApplyOcrOnPDF. Aquí está la compatibilidad entre los parámetros antiguos y nuevos:
- ForceApplyOCR = True se reemplaza por ApplyOcrOnPDF = Yes;
- ForceApplyOCR = False se reemplaza por ApplyOcrOnPDF = Auto;
- ForceApplyOCR = Vacío se reemplaza por ApplyOcrOnPDF = Auto;
- ForceApplyOCR = Su variable definida se reemplaza por ApplyOcrOnPDF = Auto.
La actividad Digitalizar documento extrae el texto de un archivo PDF y, para documentos complejos, aplica algoritmos de preprocesamiento y posprocesamiento. Esta actividad se puede utilizar junto con otras actividades de Document Understanding.
Modelo de objeto de documento
El modelo de objeto de documento se captura en un objeto propietario. Consulta Clase de documento para obtener más información.
Para digitalizar y procesar tus documentos con éxito, ten en cuenta los siguientes consejos:
- Para que una imagen se digitalice/procese correctamente, sus dimensiones de ancho y altura deben estar entre 50 y 10 000 píxeles. Cualquier imagen por debajo o por encima de este rango se rechaza, con un mensaje de excepción. Una imagen validada con las dimensiones mencionadas anteriormente y con un tamaño total mayor que 14 MP, se escala a 14 MP, mientras se mantiene la relación de aspecto (relación de ancho o altura).
- Los mejores resultados se obtienen manteniendo el ángulo de oblicuidad entre +/- 20 grados.
Ejemplo de uso de la actividad Digitalizar documento
Consulta Validación manual para digitalizar documentos para comprobar cómo se utiliza la actividad Digitalizar documento en un ejemplo que incorpora varias actividades.