Communications Mining
Más reciente
False
Guía de usuario de Communications Mining
Last updated 2 de jul. de 2024

Building custom regex general fields

Permisos necesarios: 'Modificar conjuntos de datos'.

What are Custom Regex General Fields?

A Custom Regex General Field can be used to extract and format spans of text that have a known repetitive structure, such as IDs or reference numbers.

This is a useful option for simple, structured general fields with little variation, whereas for those with significant variation and where context has a big influence on predictions, a machine-learning based general field would be the right choice. Combinations of the two can be used in any dataset within Communications Mining.

A broader Regex (i.e. set of rules to define the general field) can also be used as the base of a custom general field. This combines the rules with contextual, machine learning based refinement through training within Communications Mining to create sophisticated custom general fields. This provides the most optimal performance as well as the necessary restrictions on values extracted for automation.

Plantilla de expresión regular personalizada

A Custom Regex General Field is made up of one or more Custom Regex Templates. Each template expresses one way to extract (and format) the general field.

Combined together, these templates offer a flexible and powerful way to cover multiple representations of the same general field type.

Una plantilla consta de dos partes:

  1. The regex (regular expression), which describes the constraints that need to be met by a span of text to be extracted as a general field
  2. El formato, que expresa cómo normalizar la cadena extraída en un formato más estándar

Por ejemplo, si tus ID de cliente pueden ser la palabra "ID" seguida de 7 dígitos, o una cadena alfanumérica de 9 caracteres, así es como se verán tus dos plantillas:



Validación de escritura anticipada

Al escribir en el cuadro de texto para la expresión regular o el formato, la interfaz proporcionará comentarios inmediatos sobre la validez de la entrada. Por ejemplo, la entrada no válida Regex ID\ d{} mostrará:

Vista previa de extracción

The Custom Regex Template can be tested on text to ensure that it behaves as expected. Any general field that would be extracted with the Template will be shown in a list, with its value, as well as the position of the start and end characters.

Por ejemplo, si Regex es \d{4} y el formato ID-{$} , la siguiente cadena de prueba mostrará una extracción:


Expresión regular

The regex is the pattern used to extract general fields in the text. See here for the syntax documentation.

Los grupos de captura con nombre pueden utilizarse para identificar una sección específica de la cadena extraída para su posterior formateo. Los nombres de los grupos de captura deben ser únicos en todas las plantillas y solo deben contener letras en minúscula o dígitos.

Formatting

Formatting can be provided to post-process the extracted general field.

De forma predeterminada, no se aplica ningún formato y la cadena devuelta por la plataforma será la cadena extraída por la expresión regular. Sin embargo, si es necesario, se pueden definir transformaciones más complejas, utilizando las siguientes reglas.

Variables

Cualquier grupo de captura con nombre definido en la expresión regular estará disponible para su uso en la lógica de formato como una variable, precedida del símbolo $ . Ten en cuenta que el símbolo $ por sí solo representa la coincidencia completa de expresiones regulares.
Las variables pueden utilizarse en la cadena de formato para insertar el intervalo extraído correspondiente en el valor devuelto por la plataforma; el nombre de la variable debe estar entre llaves { y } .
Por ejemplo, si queremos extraer siete dígitos como ID y devolver estos siete dígitos con el prefijo ID- , la expresión regular y el formato serían:


O bien, utilizando un grupo de captura con nombre:


Later on, if the platform is given the text: My identification number is 1234567, it will return one general field: My identification number is 1234567, it will return one general field: ID-1234567

Operaciones de cadena

Se pueden utilizar cadenas sin formato, y las cadenas se pueden concatenar utilizando el símbolo & .
Expresión regular(?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b)
Formatting{$id1 & "-" & $id2}
TextoEl primer ID es 123 y el segundo es 4567
General Field returned by the platform123-4567

Funciones

Algunas funciones también pueden utilizarse en el formato para transformar la cadena extraída. Los nombres de las funciones y sus firmas están inspirados en Excel.

Superior

Convierte todos los caracteres del intervalo extraído a mayúsculas:

Expresión regular\w{3}
Formatting{upper($)}
Textoabc
General Field returned by the platformABC

Inferior

Convierte todos los caracteres del intervalo extraído a minúsculas:

Expresión regular\w{3}
Formatting{lower($)}
TextoAbC
General Field returned by the platformabc

Correcto

Pone en mayúscula el intervalo extraído:

Expresión regular\w+\s\w+
Formatting{proper($)}
Textoalberto einstein
General Field returned by the platformAlbert Einstein

Almohadilla

Rellena el intervalo extraído hasta un tamaño determinado con un carácter determinado.

Argumentos de la función:

  1. El texto que contiene los caracteres que se van a rellenar
  2. Tamaño de la cadena rellenada
  3. Carácter que se utilizará para el relleno
Expresión regular\d{2,5}
Formatting{pad($, 5, "0")}
Texto123
General Field returned by the platform00123

Sustituir

Reemplaza los caracteres por otros caracteres.

Argumentos de la función:

  1. El texto que contiene los caracteres que se van a sustituir
  2. Qué caracteres reemplazar
  3. Por qué deben reemplazarse los caracteres antiguos
Expresión regularab
Formatting{substitute($, "a", "12")}
Textoab
General Field returned by the platform12b

Left

Devuelve los primeros n caracteres del intervalo.

Argumentos de la función:

  1. El texto que contiene los caracteres que se van a extraer
  2. El número de caracteres a devolver
Expresión regular\w{4}
Formatting{left($, 2)}
TextoABCD
General Field returned by the platformAB

Derecha

Devuelve los últimos n caracteres del intervalo.

Argumentos de la función:

  1. El texto que contiene los caracteres que se van a extraer
  2. El número de caracteres a devolver
Expresión regular\w{4}
Formatting{right($, 2)}
TextoABCD
General Field returned by the platformCD

Medio

Devuelve n caracteres después de la posición especificada del intervalo.

Argumentos de la función:

  1. El texto que contiene los caracteres que se van a extraer
  2. La posición del primer carácter a devolver
  3. El número de caracteres a devolver
Expresión regular\w{5}
Formatting{mid($, 2, 3)}
TextoABCDE
General Field returned by the platformBCD

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.