- Información general
- Contratos de procesamiento de documentos
- Notas relacionadas
- Acerca de los contratos de procesamiento de documento
- Clase Cuadro
- Interfaz IPersistedActivity
- Clase PrettyBoxConverter
- Interfaz IClassifierActivity
- Interfaz IClasificadorProveedorDeCapacidades
- Clase ClassifierDocumentType
- Clase ClassifierResult
- ClassifierCodeActivity Class
- ClassifierNativeActivity Class
- ClassifierAsyncCodeActivity Class
- Clase ClasificadorCapacidadDeTipoDeDocumento
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- Clase
- Clase
- Clase ExtractorDocumentType
- Clase ExtractorDocumentTypeCapabilities
- Clase ExtractorFieldCapability
- Clase
- Clase ExtractorResult
- FieldValue Class
- FieldValueResult Class
- Interfaz ICapabilitiesProvider
- Interfaz IExtractorActivity
- Clase ExtractorPayload
- Enumeración DocumentActionPriority
- Clase DocumentActionData
- Enumeración DocumentActionStatus
- DocumentActionType Enum
- Clase DocumentClassificationActionData
- Clase DocumentValidationActionData
- Clase UserData
- Clase Documento
- Clase DocumentoDividirResultado
- Clase DomExtensions
- Clase Página
- Clase SecciónDePágina
- Clase de polígono
- Clase PolygonConverter
- Clase de metadatos
- Clase GrupoDeWord
- Clase Word
- Enum FuenteDeProcesamiento
- Clase ResultadosTablaCelda
- Clase ResultadosTablaValor
- Clase ResultadosTablaColumnaInfo
- Clase TablaDeResultados
- Enum Rotación
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- Enum TipoDeSección
- Enum TipoDeGrupoDeWord
- Interfaz IDocumentTextProjection
- Clase ResultadoDeClasificación
- Clase ResultadoDeExtracción
- Clase ResultadosDeDocumento
- Clase ResultadosDeLímitesDeDocumento
- Clase ResultadosDePuntoDeDatos
- Clase ResultadosDeValor
- Clase ResultadosDeContenidoDeReferencia
- Clase ResultadosDeValorDeTokens
- Clase ResultadosDeCampoDerivado
- Enum ResultadosDeFuenteDeDatos
- Clase ResultadoDeConstantes
- Clase ValorDeCampoSimple
- Clase ValorDeCampoDeTabla
- Clase GrupoDeDocumento
- Clase TaxonomíaDeDocumento
- Clase TipoDeDocumento
- Clase Campo
- Enum TipoDeCampo
- FieldValueDetails Class
- Clase InformaciónDeLenguaje
- Clase MetadataEntry
- Enumeración de tipo de texto
- Clase TipoDeCampo
- Interfaz de actividad de ITracking
- Interfaz de ITrainableActivity
- Interfaz ITrainableClassifierActivity
- Interfaz ITrainableExtractorActivity
- Clase TrainableClassifierAsyncCodeActivity
- Clase TrainableClassifierCodeActivity
- Clase TrainableClassifierNativeActivity
- Clase TrainableExtractorAsyncCodeActivity
- Clase TrainableExtractorCodeActivity
- Clase TrainableExtractorNativeActivity
- Clase BasicDataPoint: vista previa
- Clase ExtractionResultHandler: vista previa
- Document Understanding ML
- Servidor local de OCR de Document Understanding
- Document Understanding
- Notas relacionadas
- Acerca del paquete de actividades Document Understanding
- Compatibilidad de proyectos
- Configurar la conexión externa
- Establecer contraseña de PDF
- Fusionar PDF
- Obtener el recuento de páginas del PDF
- Extraer texto en PDF
- Extraer imágenes en PDF
- Extraer rango de página en PDF
- Extraer datos del documento
- Cree una tarea de validación y espere
- Esperar la tarea de validación y continuar
- Crear tarea de validación
- Clasificar documento
- Crear tarea de validación de clasificación
- Crear tarea de validación de clasificación y esperar
- Esperar la tarea de validación de clasificación y reanudar
- OCRInteligente
- Notas relacionadas
- Acerca del paquete de actividades IntelligentOCR
- Compatibilidad de proyectos
- Cargar taxonomía
- Digitalizar documento
- Clasificar ámbito de documento
- Clasificador basado en palabras clave
- Clasificador de proyectos de Document Understanding
- Clasificador inteligente de palabra clave
- Crear acción de clasificación de documentos
- Crear artefactos de validación de documentos
- Recuperar artefactos de validación de documentos
- Esperar la acción de clasificación de documentos y reanudar
- Entrenar el alcance de los clasificadores
- Entrenador del clasificador basado en palabras clave
- Entrenador del clasificador inteligente de palabra clave
- Alcance de la extracción de información
- Extractor de proyectos de Document Understanding
- Entrenador del extractor de proyectos de Document Understanding
- Extractor basado en regex
- Extractor de forma
- Extractor inteligente de formularios
- Redactar documento
- Crear acción de validación de documentos
- Esperar la acción de validación de documentos y reanudar
- Entrenar el alcance de los Extractores
- Exportar resultados de extracción
- Extractor con aprendizaje automático
- Entrenador de extractor con aprendizaje automático
- Clasificador de aprendizaje automático
- Entrenador del clasificador de aprendizaje automático
- Clasificador generativo
- Extractor generativo
- Configurar autenticación
- Validar documentos con acciones de la aplicación
- Validación manual para digitalizar documentos
- Extracción de datos basada en anclajes utilizando el extractor inteligente de formularios
- Estación de validación
- Actividades generativas: buenas prácticas
- Extractor generativo: buenas prácticas
- Clasificador generativo: buenas prácticas
- Servicios ML
- OCR
- Contratos OCR
- Notas relacionadas
- Acerca de los contratos OCR
- Compatibilidad de proyectos
- IOCRActivity Interface
- OCRAsyncCodeActivity Class
- OCRCodeActivity Class
- OCRNativeActivity Class
- Clase Carácter
- Clase OCRResult
- Clase Word
- FontStyles Enum
- OCRRotation Enum
- Clase OCRCapabilities
- OCRScrapeBase Class
- OCRScrapeFactory Class
- ScrapeControlBase Class
- Enum ScrapeEngineUsages
- ExtraerBaseDelEctor
- Clase ScrapeEngineFactory
- Clase ExtraerEngineProvider
- OmniPage
- PDF
- [No en la lista] Abbyy
- [No en la lista] Abbyy incrustado
Actividades de Document Understanding
UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor
Descripción
Te permite crear y utilizar una expresión regular personalizada para extraer información de un documento. Esta actividad solo se puede utilizar junto con la actividad Ámbito de extracción de datos .
This activity cannot work with set or boolean fields.
Compatibilidad de proyectos
Windows-Legacy | Windows
Configuración
Panel del Diseñador
Configurar expresiones : abre el asistente Configurar expresiones regulares .
Panel de propiedades
Común
- Nombre para mostrar: el nombre para mostrar de la actividad.
Entrada
- Configuration - Specifies the configuration value for the extractor as a
JSONescaped string. Use the extractor wizard to generate the configuration. You can keep the configuration in the Properties panel, as a string, or you can define it by using the wizard and bind it to a variable. It is advisable to edit the Configuration field by using the wizard and not the Properties panel. - Timeout - Specifies the timeout value for any Regex search, in milliseconds. A timeout of
0, or negative, is interpreted as infinite. The default value is2000. - UseVisualAlignment - If selected, the regular expressions are applied to a text version generated based on visual word alignments (a visual word alignment includes words separated by a single space character, lines separated by a single newline character, and pages separated by two lines characters). The default value is False. This option can be used for complex layouts where it is easier for users to write regular expressions based on how words are visually organized on lines, ignoring any sentence, paragraph, or layout group otherwise identified in the document.
Otros
- Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.
Uso del asistente para configurar expresiones regulares
-
Add a RegEx Based Extractor activity to your workflow, within a Data Extraction Scope activity.
-
Configura tus expresiones regulares seleccionando Configurar expresiones. Se abrirá la ventana del Asistente.
Figura 1. Descripción general del asistente Configurar expresiones regulares

-
Amplía la entrada de tipo de documento para ver todos los campos definidos y comienza a configurar tus expresiones regulares. Los tipos de documento y sus campos respectivos se leen automáticamente desde la taxonomía del proyecto. La opción de configuración Regex está disponible para cada campo en la taxonomía. Comprueba las siguientes opciones de configuración que puedes encontrar en el asistente:
- Puedes tener un tipo de documento que, al expandirlo, se muestre un único campo regular. Para un campo simple, solo se puede definir una única expresión regular utilizando el asistente Configurar expresiones regulares que se abre al seleccionar Editar junto a ese campo.
Figura 2. Un tipo de documento en el asistente Configurar expresiones regulares que tiene un campo regular definido

- Puedes tener un tipo de documento que, al expandirlo, se muestre un campo de tabla, mostrando opciones de configuración para una tabla, como Expresión para el contenido de la tabla completo, o una Expresión para filas individuales. Consulta la siguiente lista para las varias configuraciones y opciones disponibles para una configuración de campo de tabla:
- La Expresión regular de valor de tabla puede utilizarse para capturar toda el área de una tabla. Si no se añade ningún valor en la línea de campo Tabla, el contenido de texto completo del documento se considera en adelante para el procesamiento de tabla.
- La Expresión regular de valor de fila puede utilizarse para capturar una fila completa de una captura de tabla determinada. Si no se añade ningún valor en la línea de campo Filas, el área de la tabla se divide por final de línea. Cada valor capturado se considera a partir de este momento como una fila sobre la que se va a aplicar la extracción de columnas.
- The Column Value RegEx can be used for capturing the value of a particular column, from each captured row.
Figura 3. Un tipo de documento en el asistente Configurar expresiones regulares que tiene un campo de tabla definido

Escenarios de utilización de la tabla, filas y columna RegEx
Comprueba los siguientes escenarios posibles para utilizar las opciones RegEx de tabla disponibles:
- If you leave the Table RegEx and the Rows RegEx fields empty, all lines in the text version of the document are used to apply the Column Level Regexes for cell value identification.
- If you define a RegEx to capture the table area, but leave the Rows RegEx empty, all lines in the table capture are individually processed using each Column RegEx to capture the cell values.
- If you leave the Table RegEx empty but define a Rows RegEx, then all text captured with the Rows RegEx is used and the Column RegExes are applied to capture cell values for each row.
- If you fill in both Table and Rows RegEx, the activity applies the Table RegEx to identify the table string, then apply the Rows RegEx to identify each line, followed by the Column Level RegEx for capturing cell values.
-
Añade tu expresión regular en el campo Expresión. Tienes la opción de escribir todo el RegEx en el campo Expresión o crearlo utilizando la opción Editar.
Importante:Para cualquiera de las expresiones regulares que definas, asegúrate de tener al menos un grupo de captura. Solo las partes capturadas de una expresión se utilizan para informar de valores.
-
Selecciona la lista desplegable de la columna Opciones regex. Puedes establecer varias opciones de regex desde esta opción de selección múltiple.
Puedes elegir entre las siguientes opciones:
-
CultureInvariant - Specifies that the linguistic cultural differences are ignored.
-
ECMAScript : habilita el comportamiento compatible con ECMA (Asociación Europea de Fabricantes de Ordenadores) para la expresión. Este valor solo puede utilizarse junto con las opciones IgnorarCaso y Multilínea .
-
CapturaExplícita : especifica que las únicas capturas válidas son las de los grupos que se nombran o numeran explícitamente y se definen como
(?<name> subexpression). Cualquier paréntesis sin nombre se ignora. -
IgnoreCase - Specifies that the search is not case sensitive.
-
IgnorarPatrónEspacioEnBlanco : elimina el espacio en blanco sin escape del patrón definido y habilita los comentarios marcados con
#(símbolo de etiqueta). Esta opción no se aplica a las clases de caracteres, los cuantificadores numéricos o los tokens que marcan el comienzo de un elemento de idioma RegEx individual. -
Singleline - Specifies that the search is initiated in a single line. The dot
(.)matches all characters, including the exception\n. -
Multiline - Specifies that the search is initiated in multiple lines. For this option, the special characters
^and$match the beginning and the ending of any line. -
RightToLeft - Specifies that the search is performed from right to left.
Nota:Consulta RegexOptions Enum para obtener más información sobre las opciones de expresiones regulares que puedes utilizar.
-
Figura 4. El menú desplegable Opciones de expresión regular ampliado que muestra las opciones disponibles

Asistente del Editor de expresiones regulares
-
Selecciona Editar para editar las opciones de ese campo y el formato de la expresión regular. Se abre el asistente Generador RegEx.
Figura 5. Descripción general del asistente Generador de expresiones regulares

-
Introduce tu texto deseado en el campo Texto de prueba. Este es el texto al que deseas aplicar RegEx en función de los criterios de búsqueda que elijas. Después de eso, inserta un valor en el campo Valor del RegEx, que también se resaltará en el campo de Texto de prueba.
Figura 6. Introducir texto en el campo Texto de prueba y resaltar un valor determinado del mismo utilizando el campo Valor

-
Selecciona uno de los tipos de fórmulas RegEx de la lista desplegable. Esto establece la expresión regular para que coincida con una de las siguientes características:
- Literal - Matches the exact characters specified by you. This option is case sensitive.
- Digit - Matches a digit.
- One of - Matches a single character present in the set.
- Not one of - Matches a single character not present in the set.
- Anything - Matches any character, except for
\n. - Any word character - Matches any letters and numbers.
- Whitespace - Matches one white space.
- Starts with - Initiates the search where the line starts.
- Ends with - Initiates the search where the line ends.
- Advanced - Requires a custom expression.
- Email - Matches an email address.
- URL - Matches an URL.
- US date - Matches the US date format.
- US phone number - Matches the US phone number format.
Figura 7. La lista desplegable que muestra las características disponibles para la expresión regular
Nota:Consulta Expresiones regulares .NET para obtener más información sobre las expresiones regulares en .NET.
-
Use the Value field for writing the value of the regular expression.
-
Selecciona un cuantificador de la lista desplegable Cuantificadores. Puedes elegir entre las siguientes opciones:
- Exactly - Matches the preceding element exactly how many times it is specified. By default, it is set to
1. - Any (0 or more) - Matches the preceding element for zero or more times, but as few times as possible.
- At least one (1 or more) - Matches the preceding element for one or more times.
- Zero or one - Matches the preceding element for zero or one time but for as few times as possible.
- Between x and y times - Matches the preceding element between
xandytimes, wherexandyare integers, but as few times as possible.
- Exactly - Matches the preceding element exactly how many times it is specified. By default, it is set to
-
Para editar campos, puedes utilizar las siguientes opciones:
- Selecciona Añadir
para añadir un campo RegEx adicional. - Seleccionar Mover hacia arriba
y Mover hacia abajo
para mover los campos hacia arriba y hacia abajo en la jerarquía. - Selecciona Eliminar
para eliminar el campo.
- Selecciona Añadir
-
Select the check box for the Capture option if you want to extract that specific field.
-
El campo Expresión completa muestra la expresión completa exactamente cómo la personalizaste.
-
Selecciona una o varias opciones de la lista desplegable Opciones regulares.
Figura 8. Las opciones disponibles en la lista desplegable Opciones de expresión regular

-
Selecciona Guardar una vez que se realicen todas tus configuraciones para salir del modo Editar.
-
Selecciona Guardaragain para cerrar el asistente.
Integración de Document Understanding
La actividad Extractor basado en RegEx forma parte de Document Understanding Solutions.