- Información general
- Contratos de procesamiento de documentos
- Notas relacionadas
- Acerca de los contratos de procesamiento de documento
- Clase Cuadro
- Interfaz IPersistedActivity
- Clase PrettyBoxConverter
- Interfaz IClassifierActivity
- Interfaz IClasificadorProveedorDeCapacidades
- Clase ClassifierDocumentType
- Clase ClassifierResult
- ClassifierCodeActivity Class
- ClassifierNativeActivity Class
- ClassifierAsyncCodeActivity Class
- Clase ClasificadorCapacidadDeTipoDeDocumento
- Clase
- Clase
- Clase ExtractorDocumentType
- Clase ExtractorDocumentTypeCapabilities
- Clase ExtractorFieldCapability
- Clase
- Clase ExtractorResult
- Interfaz ICapabilitiesProvider
- Interfaz IExtractorActivity
- Clase ExtractorPayload
- Enumeración DocumentActionPriority
- Clase DocumentActionData
- Enumeración DocumentActionStatus
- DocumentActionType Enum
- Clase DocumentClassificationActionData
- Clase DocumentValidationActionData
- Clase UserData
- Clase Documento
- Clase DocumentoDividirResultado
- Clase DomExtensions
- Clase Página
- Clase SecciónDePágina
- Clase de polígono
- Clase PolygonConverter
- Clase de metadatos
- Clase GrupoDeWord
- Clase Word
- Enum FuenteDeProcesamiento
- Clase ResultadosTablaCelda
- Clase ResultadosTablaValor
- Clase ResultadosTablaColumnaInfo
- Clase TablaDeResultados
- Enum Rotación
- Enum TipoDeSección
- Enum TipoDeGrupoDeWord
- Interfaz IDocumentTextProjection
- Clase ResultadoDeClasificación
- Clase ResultadoDeExtracción
- Clase ResultadosDeDocumento
- Clase ResultadosDeLímitesDeDocumento
- Clase ResultadosDePuntoDeDatos
- Clase ResultadosDeValor
- Clase ResultadosDeContenidoDeReferencia
- Clase ResultadosDeValorDeTokens
- Clase ResultadosDeCampoDerivado
- Enum ResultadosDeFuenteDeDatos
- Clase ResultadoDeConstantes
- Clase ValorDeCampoSimple
- Clase ValorDeCampoDeTabla
- Clase GrupoDeDocumento
- Clase TaxonomíaDeDocumento
- Clase TipoDeDocumento
- Clase Campo
- Enum TipoDeCampo
- Clase InformaciónDeLenguaje
- Clase MetadataEntry
- Enumeración de tipo de texto
- Clase TipoDeCampo
- Interfaz de actividad de ITracking
- Interfaz de ITrainableActivity
- Interfaz ITrainableClassifierActivity
- Interfaz ITrainableExtractorActivity
- Clase TrainableClassifierAsyncCodeActivity
- Clase TrainableClassifierCodeActivity
- Clase TrainableClassifierNativeActivity
- Clase TrainableExtractorAsyncCodeActivity
- Clase TrainableExtractorCodeActivity
- Clase TrainableExtractorNativeActivity
- Digitalizador de Document Understanding
- Document Understanding ML
- Servidor local de OCR de Document Understanding
- Document Understanding
- Notas relacionadas
- Acerca del paquete de actividades Document Understanding
- Compatibilidad de proyectos
- Establecer contraseña de PDF
- Fusionar PDF
- Obtener el recuento de páginas del PDF
- Extraer texto en PDF
- Extraer imágenes en PDF
- Extraer rango de página en PDF
- Extraer datos del documento
- Cree una tarea de validación y espere
- Esperar la tarea de validación y continuar
- Crear tarea de validación
- Clasificar documento
- Crear tarea de validación de clasificación
- Crear tarea de validación de clasificación y esperar
- Esperar la tarea de validación de clasificación y reanudar
- OCRInteligente
- Notas relacionadas
- Acerca del paquete de actividades IntelligentOCR
- Compatibilidad de proyectos
- Configurar autenticación
- Cargar taxonomía
- Digitalizar documento
- Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador de proyectos de Document Understanding
- Clasificador inteligente de palabra clave
- Crear acción de clasificación de documentos
- Esperar la acción de clasificación de documentos y reanudar
- Entrenar el alcance de los clasificadores
- Entrenador del clasificador basado en palabras clave
- Entrenador del clasificador inteligente de palabra clave
- Alcance de la extracción de información
- Extractor de proyectos de Document Understanding
- Extractor basado en regex
- Extractor de forma
- Extractor inteligente de formularios
- Mostrar Estación de Validación
- Crear acción de validación de documentos
- Esperar la acción de validación de documentos y reanudar
- Entrenar el alcance de los Extractores
- Exportar resultados de extracción
- Servicios ML
- OCR
- Contratos OCR
- Notas relacionadas
- Acerca de los contratos OCR
- Compatibilidad de proyectos
- IOCRActivity Interface
- OCRAsyncCodeActivity Class
- OCRCodeActivity Class
- OCRNativeActivity Class
- Clase Carácter
- Clase OCRResult
- Clase Word
- FontStyles Enum
- OCRRotation Enum
- Clase OCRCapabilities
- OCRScrapeBase Class
- OCRScrapeFactory Class
- ScrapeControlBase Class
- Enum ScrapeEngineUsages
- ExtraerBaseDelEctor
- Clase ScrapeEngineFactory
- Clase ExtraerEngineProvider
- OmniPage
- PDF
- [No en la lista] Abbyy
- [No en la lista] Abbyy incrustado
Extractor basado en regex
UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor
Le permite crear y utilizar una expresión basada en regular personalizada para extraer información de un documento. Esta actividad solo se puede utilizar junto con la actividad Ámbito de extracción de datos .
set
o boolean
.
Panel del Diseñador
Configurar expresiones: abre el asistente Configurar expresiones regulares.
Panel de propiedades
Común
- NombreParaMostrar: el nombre de la actividad para ser mostrado.
Entrada
- Configuración : especifica el valor de configuración para el extractor como una
JSON
cadena de escape. Utilice el asistente de extracción para generar la configuración. Puedes mantener la configuración en el panel Propiedades , como una cadena, o puedes definirla usando el asistente y vincularla a una variable. Se recomienda editar el campo Configuración utilizando el asistente y no el panel Propiedades . - Tiempo de espera: especifica el valor de tiempo de espera para cualquier búsqueda de expresiones regulares, en milisegundos. Un tiempo de espera de
0
, o negativo, se interpreta como infinito. El valor predeterminado es2000
. - UseVisualAlignment : si se selecciona, las expresiones regulares se aplican a una versión de texto generada en función de las alineaciones visuales de palabras (una alineación visual de palabras incluye palabras separadas por un solo carácter de espacio, líneas separadas por un solo carácter de nueva línea y páginas separadas por dos caracteres de línea) . El valor predeterminado es Falso. Esta opción se puede utilizar para diseños complejos donde es más fácil para los usuarios escribir expresiones regulares basadas en cómo se organizan visualmente las palabras en líneas, ignorando cualquier oración, párrafo o grupo de diseño identificado en el documento.
Otros
- Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.
- Añade una actividad Extractor basado en expresiones regulares a tu flujo de trabajo, dentro de una actividad Ámbito de extracción de datos.
- Configura tus expresiones regulares seleccionando Configurar expresiones.
Se abrirá la ventana del Asistente.
Figura 1. Descripción general del asistente Configurar expresiones regulares
- Amplía la entrada de tipo de documento para ver todos los campos definidos y comienza a configurar tus expresiones regulares. Los tipos de documento y sus campos respectivos se leen automáticamente desde la taxonomía del proyecto. La opción de configuración Regex está disponible para cada campo en la taxonomía. Comprueba las siguientes opciones de configuración que puedes encontrar en el asistente:
- Puedes tener un tipo de documento que, al expandirlo, se muestre un único campo regular.
Para un campo simple, solo se puede definir una única expresión regular utilizando el asistente Configurar expresiones regulares que se abre al seleccionar Editar junto a ese campo.
Figura 2. Un tipo de documento en el asistente Configurar expresiones regulares que tiene un campo regular definido
- Puedes tener un tipo de documento que, al expandirlo, se muestre un campo de tabla, mostrando opciones de configuración para una tabla, como Expresión para el contenido de la tabla completo, o una Expresión para filas individuales.
Consulta la siguiente lista para las varias configuraciones y opciones disponibles para una configuración de campo de tabla:
- La Expresión regular de valor de tabla puede utilizarse para capturar toda el área de una tabla. Si no se añade ningún valor en la línea de campo Tabla, el contenido de texto completo del documento se considera en adelante para el procesamiento de tabla.
- La Expresión regular de valor de fila puede utilizarse para capturar una fila completa de una captura de tabla determinada. Si no se añade ningún valor en la línea de campo Filas, el área de la tabla se divide por final de línea. Cada valor capturado se considera a partir de este momento como una fila sobre la que se va a aplicar la extracción de columnas.
- La Expresión regular de valor de columna puede utilizarse para capturar el valor de una columna concreta de cada línea capturada.
Figura 3. Un tipo de documento en el asistente Configurar expresiones regulares que tiene un campo de tabla definido
Escenarios de utilización de la tabla, filas y columna RegEx
Comprueba los siguientes escenarios posibles para utilizar las opciones RegEx de tabla disponibles:- Si dejas vacíos los campos Expresión regular de tabla y Expresión regular de filas, todas las líneas de la versión de texto del documento se utilizarán para aplicar las Expresiones regulares de nivel de columna en la identificación del valor de la celda.
- Si defines una expresión regular para capturar el área de la tabla, pero dejas vacía la Expresión regular de filas, todas las líneas de la captura de la tabla se procesan de manera individual utilizando cada Expresión regular de columna para capturar los valores de las celdas.
- Si dejas vacía la Expresión regular de tabla, pero defines una Expresión regular de filas, se utilizará todo el texto capturado con esta última y las Expresiones regulares de columna se aplicarán para capturar los valores de celda de cada fila.
- Si rellenas las Expresiones regulares Tabla y Filas, la actividad aplica la Expresión regular Tabla para identificar la cadena de tabla, a continuación, aplica la Expresión regular Filas para identificar cada línea, seguida de la Expresión regular Nivel de columna para la captura de valores de celda.
- Puedes tener un tipo de documento que, al expandirlo, se muestre un único campo regular.
- Añade tu expresión regular en el campo Expresión.
Tienes la opción de escribir todo el RegEx en el campo Expresión o crearlo utilizando la opción Editar.
Importante: para cualquiera de las expresiones regulares que definas, asegúrate de tener al menos un grupo de captura. Solo las partes capturadas de una expresión se utilizan para la notificación de valores. - Selecciona la lista desplegable de la columna Opciones regex. Puedes establecer varias opciones de regex desde esta opción de selección múltiple.
Puedes elegir entre las siguientes opciones:
- CulturaInvariable: especifica que se ignoran las diferencias culturales lingüísticas.
- ECMAScript: habilita el comportamiento compatible con Script ECMA (asociación de fabricantes europeos de ordenadores) para la expresión. Este valor solo puede utilizarse junto con las opciones IgnorarMayúsculas y Multilínea.
- CapturaExplícita: especifica que las únicas capturas válidas son las de grupos explícitamente nombrados o numerados y definidos como
(?<name> subexpression)
. Se ignora cualquier paréntesis no nombrado. - IgnorarMayúsculas: especifica que la búsqueda no distingue entre mayúsculas y minúsculas.
- IgnorarPatrónEspacioEnBlanco: elimina el espacio en blanco no escapado del patrón definido y habilita los comentarios marcados con
#
(símbolo hashtag). Esta opción no se aplica a clases de caracteres, cuantificadores numéricos o tokens que marcan el comienzo de un elemento de idioma de expresión regular individual. - LíneaSimple: especifica que la búsqueda se inicie en una sola línea. El punto
(.)
coincide con todos los caracteres, incluida la excepción\n
. - Multilínea: especifica que la búsqueda se inicie en varias líneas. Para esta opción, los caracteres especiales
^
y$
coinciden con el principio y el final de cualquier línea. - DerechaAIzquierda: especifica que la búsqueda se realiza de derecha a izquierda.
Nota: consulta RegexOptions Enum para obtener más información sobre las opciones de expresión regulares que puedes utilizar.
Figura 4. El menú desplegable de Opciones regex expandido que muestra las opciones disponibles
- Selecciona Editar para editar las opciones de ese campo y el formato de la expresión regular.
Se abre el asistente Generador RegEx.
Figura 5. Descripción general del asistente Creador RegEx
- Introduce tu texto deseado en el campo Texto de prueba. Este es el texto al que deseas aplicar RegEx en función de los criterios de búsqueda que elijas. Después de eso, inserta un valor en el campo Valor del RegEx, que también se resaltará en el campo de Texto de prueba.
Figura 6. Introducir texto en el campo Texto de prueba y resaltar un valor determinado de él utilizando el campo Valor
- Selecciona uno de los tipos de fórmulas RegEx de la lista desplegable. Esto establece la expresión regular para que coincida con una de las siguientes características:
- Literal: coincide exactamente con los caracteres que has especificado. Esta opción distingue entre mayúsculas y minúsculas.
- Dígito: coincide con un dígito.
- Uno de: coincide con un único carácter presente en el conjunto.
- No es ninguno: coincide con un único carácter que no está presente en el conjunto.
- Cualquiera: coincide con cualquier carácter, excepto
\n
. - Cualquier carácter de palabra: coincide con cualquier letra o número.
- Espacio en blanco: coincide con un espacio en blanco.
- Comienza con: inicia la búsqueda donde comienza la línea.
- Termina con: inicia la búsqueda donde termina la línea.
- Avanzado: requiere una expresión personalizada.
- Correo electrónico: coincide con una dirección de correo electrónico.
- URL: coincide con una URL.
- Fecha de EE. UU.: coincide con el formato de fecha de EE. UU.
- Número de teléfono de EE. UU.: coincide con el formato de número de teléfono de EE. UU.
Figura 7. La lista desplegable que muestra las características disponibles para la expresión regular
Nota: consulta Expresiones regulares .NET para obtener más información sobre las expresiones regulares en .NET.
- Utiliza el campo Valor para escribir el valor de la expresión regular.
- Selecciona un cuantificador de la lista desplegable Cuantificadores. Puedes elegir entre las siguientes opciones:
- Exactamente: coincide con el elemento anterior exactamente las veces que se especifica. De forma predeterminada, está establecido en
1
. - Cualquiera (0 o más): coincide cero o más veces con el elemento precedente, pero el menor número de veces posible.
- Al menos uno (1 o más): coincide con el elemento precedente una o más veces.
- Cero o uno: coincide con el elemento precedente una o ninguna vez o el mínimo de veces posible.
- Entre X e Y veces: coincide con el elemento precedente entre
x
yy
veces, dondex
yy
son números enteros, pero el menor número de veces posible.
- Exactamente: coincide con el elemento anterior exactamente las veces que se especifica. De forma predeterminada, está establecido en
- Para editar campos, puedes utilizar las siguientes opciones:
- Selecciona Añadir para añadir un campo RegEx adicional.
- Selecciona Mover hacia arriba y Mover hacia abajo para mover campos hacia arriba y hacia abajo en la jerarquía.
- Selecciona Eliminar para eliminar el campo.
- Si deseas extraer un campo específico, selecciona la casilla de verificación de la opción Capturar.
- El campo Expresión completa muestra la expresión completa exactamente cómo la personalizaste.
- Selecciona una o varias opciones de la lista desplegable Opciones regulares.
Figura 8. Las opciones disponibles en la lista desplegable Opciones regulares
- Selecciona Guardar una vez que se realicen todas tus configuraciones para salir del modo Editar.
- Selecciona Guardaragain para cerrar el asistente.