UiPath Documentation
activities
latest
false

Actividades de Document Understanding

Última actualización 5 de may. de 2026

Extractor basado en regex

UiPath.IntelligentOCR.Activities.DataExtraction.RegexBasedExtractor

Descripción

Te permite crear y utilizar una expresión regular personalizada para extraer información de un documento. Esta actividad solo se puede utilizar junto con la actividad Ámbito de extracción de datos .

Nota:

This activity cannot work with set or boolean fields.

Compatibilidad de proyectos

Windows-Legacy | Windows

Configuración

Panel del Diseñador

Configurar expresiones : abre el asistente Configurar expresiones regulares .

Panel de propiedades

Común

  • Nombre para mostrar: el nombre para mostrar de la actividad.

Entrada

  • Configuration - Specifies the configuration value for the extractor as a JSON escaped string. Use the extractor wizard to generate the configuration. You can keep the configuration in the Properties panel, as a string, or you can define it by using the wizard and bind it to a variable. It is advisable to edit the Configuration field by using the wizard and not the Properties panel.
  • Timeout - Specifies the timeout value for any Regex search, in milliseconds. A timeout of 0, or negative, is interpreted as infinite. The default value is 2000.
  • UseVisualAlignment - If selected, the regular expressions are applied to a text version generated based on visual word alignments (a visual word alignment includes words separated by a single space character, lines separated by a single newline character, and pages separated by two lines characters). The default value is False. This option can be used for complex layouts where it is easier for users to write regular expressions based on how words are visually organized on lines, ignoring any sentence, paragraph, or layout group otherwise identified in the document.

Otros

  • Privado : si se selecciona, los valores de variables y argumentos ya no se registran en el nivel Detallado.

Uso del asistente para configurar expresiones regulares

  1. Add a RegEx Based Extractor activity to your workflow, within a Data Extraction Scope activity.

  2. Configura tus expresiones regulares seleccionando Configurar expresiones. Se abrirá la ventana del Asistente.

    Figura 1. Descripción general del asistente Configurar expresiones regulares

    Descripción general del asistente Configurar expresiones regulares

  3. Amplía la entrada de tipo de documento para ver todos los campos definidos y comienza a configurar tus expresiones regulares. Los tipos de documento y sus campos respectivos se leen automáticamente desde la taxonomía del proyecto. La opción de configuración Regex está disponible para cada campo en la taxonomía. Comprueba las siguientes opciones de configuración que puedes encontrar en el asistente:

    • Puedes tener un tipo de documento que, al expandirlo, se muestre un único campo regular. Para un campo simple, solo se puede definir una única expresión regular utilizando el asistente Configurar expresiones regulares que se abre al seleccionar Editar junto a ese campo.

    Figura 2. Un tipo de documento en el asistente Configurar expresiones regulares que tiene un campo regular definido

    Un tipo de documento en el asistente Configurar expresiones regulares que tiene un campo regular definido

    • Puedes tener un tipo de documento que, al expandirlo, se muestre un campo de tabla, mostrando opciones de configuración para una tabla, como Expresión para el contenido de la tabla completo, o una Expresión para filas individuales. Consulta la siguiente lista para las varias configuraciones y opciones disponibles para una configuración de campo de tabla:
      • La Expresión regular de valor de tabla puede utilizarse para capturar toda el área de una tabla. Si no se añade ningún valor en la línea de campo Tabla, el contenido de texto completo del documento se considera en adelante para el procesamiento de tabla.
      • La Expresión regular de valor de fila puede utilizarse para capturar una fila completa de una captura de tabla determinada. Si no se añade ningún valor en la línea de campo Filas, el área de la tabla se divide por final de línea. Cada valor capturado se considera a partir de este momento como una fila sobre la que se va a aplicar la extracción de columnas.
      • The Column Value RegEx can be used for capturing the value of a particular column, from each captured row.

    Figura 3. Un tipo de documento en el asistente Configurar expresiones regulares que tiene un campo de tabla definido

    Un tipo de documento en el asistente Configurar expresiones regulares que tiene un campo de tabla definido

Escenarios de utilización de la tabla, filas y columna RegEx

Comprueba los siguientes escenarios posibles para utilizar las opciones RegEx de tabla disponibles:

  • If you leave the Table RegEx and the Rows RegEx fields empty, all lines in the text version of the document are used to apply the Column Level Regexes for cell value identification.
  • If you define a RegEx to capture the table area, but leave the Rows RegEx empty, all lines in the table capture are individually processed using each Column RegEx to capture the cell values.
  • If you leave the Table RegEx empty but define a Rows RegEx, then all text captured with the Rows RegEx is used and the Column RegExes are applied to capture cell values for each row.
  • If you fill in both Table and Rows RegEx, the activity applies the Table RegEx to identify the table string, then apply the Rows RegEx to identify each line, followed by the Column Level RegEx for capturing cell values.
  1. Añade tu expresión regular en el campo Expresión. Tienes la opción de escribir todo el RegEx en el campo Expresión o crearlo utilizando la opción Editar.

    Importante:

    Para cualquiera de las expresiones regulares que definas, asegúrate de tener al menos un grupo de captura. Solo las partes capturadas de una expresión se utilizan para informar de valores.

  2. Selecciona la lista desplegable de la columna Opciones regex. Puedes establecer varias opciones de regex desde esta opción de selección múltiple.

    Puedes elegir entre las siguientes opciones:

    • CultureInvariant - Specifies that the linguistic cultural differences are ignored.

    • ECMAScript : habilita el comportamiento compatible con ECMA (Asociación Europea de Fabricantes de Ordenadores) para la expresión. Este valor solo puede utilizarse junto con las opciones IgnorarCaso y Multilínea .

    • CapturaExplícita : especifica que las únicas capturas válidas son las de los grupos que se nombran o numeran explícitamente y se definen como (?<name> subexpression). Cualquier paréntesis sin nombre se ignora.

    • IgnoreCase - Specifies that the search is not case sensitive.

    • IgnorarPatrónEspacioEnBlanco : elimina el espacio en blanco sin escape del patrón definido y habilita los comentarios marcados con # (símbolo de etiqueta). Esta opción no se aplica a las clases de caracteres, los cuantificadores numéricos o los tokens que marcan el comienzo de un elemento de idioma RegEx individual.

    • Singleline - Specifies that the search is initiated in a single line. The dot (.) matches all characters, including the exception \n.

    • Multiline - Specifies that the search is initiated in multiple lines. For this option, the special characters ^ and $ match the beginning and the ending of any line.

    • RightToLeft - Specifies that the search is performed from right to left.

      Nota:

      Consulta RegexOptions Enum para obtener más información sobre las opciones de expresiones regulares que puedes utilizar.

Figura 4. El menú desplegable Opciones de expresión regular ampliado que muestra las opciones disponibles

El menú desplegable de Opciones regex expandido que muestra las opciones disponibles

Asistente del Editor de expresiones regulares

  1. Selecciona Editar para editar las opciones de ese campo y el formato de la expresión regular. Se abre el asistente Generador RegEx.

    Figura 5. Descripción general del asistente Generador de expresiones regulares

    Descripción general del asistente Creador RegEx

  2. Introduce tu texto deseado en el campo Texto de prueba. Este es el texto al que deseas aplicar RegEx en función de los criterios de búsqueda que elijas. Después de eso, inserta un valor en el campo Valor del RegEx, que también se resaltará en el campo de Texto de prueba.

    Figura 6. Introducir texto en el campo Texto de prueba y resaltar un valor determinado del mismo utilizando el campo Valor

    Introducir texto en el campo Texto de prueba y resaltar un valor determinado de él utilizando el campo Valor

  3. Selecciona uno de los tipos de fórmulas RegEx de la lista desplegable. Esto establece la expresión regular para que coincida con una de las siguientes características:

    • Literal - Matches the exact characters specified by you. This option is case sensitive.
    • Digit - Matches a digit.
    • One of - Matches a single character present in the set.
    • Not one of - Matches a single character not present in the set.
    • Anything - Matches any character, except for \n.
    • Any word character - Matches any letters and numbers.
    • Whitespace - Matches one white space.
    • Starts with - Initiates the search where the line starts.
    • Ends with - Initiates the search where the line ends.
    • Advanced - Requires a custom expression.
    • Email - Matches an email address.
    • URL - Matches an URL.
    • US date - Matches the US date format.
    • US phone number - Matches the US phone number format.

    Figura 7. La lista desplegable que muestra las características disponibles para la expresión regular

    La lista desplegable que muestra las características disponibles para la expresión regular

    Nota:

    Consulta Expresiones regulares .NET para obtener más información sobre las expresiones regulares en .NET.

  4. Use the Value field for writing the value of the regular expression.

  5. Selecciona un cuantificador de la lista desplegable Cuantificadores. Puedes elegir entre las siguientes opciones:

    • Exactly - Matches the preceding element exactly how many times it is specified. By default, it is set to 1.
    • Any (0 or more) - Matches the preceding element for zero or more times, but as few times as possible.
    • At least one (1 or more) - Matches the preceding element for one or more times.
    • Zero or one - Matches the preceding element for zero or one time but for as few times as possible.
    • Between x and y times - Matches the preceding element between x and y times, where x and y are integers, but as few times as possible.
  6. Para editar campos, puedes utilizar las siguientes opciones:

    1. Selecciona Añadir Añadir para añadir un campo RegEx adicional.
    2. Seleccionar Mover hacia arribaMover hacia arriba y Mover hacia abajoMover hacia abajo para mover los campos hacia arriba y hacia abajo en la jerarquía.
    3. Selecciona Eliminarremove para eliminar el campo.
  7. Select the check box for the Capture option if you want to extract that specific field.

  8. El campo Expresión completa muestra la expresión completa exactamente cómo la personalizaste.

  9. Selecciona una o varias opciones de la lista desplegable Opciones regulares.

    Figura 8. Las opciones disponibles en la lista desplegable Opciones de expresión regular

    Las opciones disponibles en la lista desplegable Opciones regulares

  10. Selecciona Guardar una vez que se realicen todas tus configuraciones para salir del modo Editar.

  11. Selecciona Guardaragain para cerrar el asistente.

Integración de Document Understanding

La actividad Extractor basado en RegEx forma parte de Document Understanding Solutions.

¿Te ha resultado útil esta página?

Conectar

¿Necesita ayuda? Soporte

¿Quiere aprender? UiPath Academy

¿Tiene alguna pregunta? Foro de UiPath

Manténgase actualizado