- Primeros pasos
- Equilibrio
- Clústeres
- Deriva del concepto
- Cobertura
- Conjuntos de datos
- General fields (previously Entities)
- Etiquetas (predicciones, niveles de confianza, jerarquía, etc.)
- Modelos
- Transmisiones
- Clasificación del modelo
- Proyectos
- Precisión
- Recordar
- Mensajes revisados y no revisados
- Fuentes
- Taxonomías
- Formación
- Predicciones positivas y negativas verdaderas y falsas
- Validación
- Mensajes
- Administración
- Gestionar fuentes y conjuntos de datos
- Comprender la estructura de datos y los permisos
- Crear un origen de datos en la GUI
- Cargar un archivo CSV en un origen
- Crear un nuevo conjunto de datos
- Fuentes y conjuntos de datos multilingües
- Habilitar sentimiento en un conjunto de datos
- Modificar la configuración de un conjunto de datos
- Eliminar mensajes a través de la IU
- Eliminar un conjunto de datos
- Exportar un conjunto de datos
- Uso de integraciones de Exchange
- Preparando datos para cargar archivos .CSV
- Entrenamiento y mantenimiento de modelos
- Understanding labels, general fields and metadata
- Jerarquía de etiquetas y mejores prácticas
- Definición de los objetivos de taxonomía
- Casos de uso de análisis frente a automatización
- Convertir tus objetivos en etiquetas
- Crear tu estructura de taxonomía
- Mejores prácticas de diseño de taxonomía
- Importar tu taxonomía
- Descripción general del proceso de entrenamiento del modelo
- Anotación generativa (NUEVO)
- Comprender el estado de tu conjunto de datos
- Entrenamiento de modelos y mejores prácticas de anotación
- Entrenamiento con análisis de sentimiento de etiqueta habilitado
- Entrenamiento
- Introducción a Refinar
- Explicación de la precisión y la recuperación
- Precisión y recuperación
- ¿Cómo funciona la validación?
- Comprender y mejorar el rendimiento del modelo
- ¿Por qué una etiqueta puede tener una precisión media baja?
- Entrenamiento utilizando la etiqueta Comprobar y la etiqueta Perdida
- Entrenamiento mediante la etiqueta de aprendizaje (refinar)
- Entrenamiento mediante Buscar (Refinar)
- Comprender y aumentar la cobertura
- Mejorar el equilibrio y utilizar Reequilibrar
- Cuándo dejar de entrenar tu modelo
- Defining and setting up your general fields
- Understanding general fields
- Which pre-trained general fields are available?
- Enabling, disabling, updating and creating general fields
- General field filtering
- Reviewing and applying general fields
- Validation for general fields
- Improving general field performance
- Building custom regex general fields
- Extracción generativa
- Uso de análisis y supervisión
- Minería de automatizaciones y comunicaciones
- Preguntas frecuentes y más
![](https://docs.uipath.com/_next/static/media/grid.05ebd128.png?w=3840&q=100)
Building custom regex general fields
Permisos necesarios: 'Modificar conjuntos de datos'.
A Custom Regex General Field can be used to extract and format spans of text that have a known repetitive structure, such as IDs or reference numbers.
This is a useful option for simple, structured general fields with little variation, whereas for those with significant variation and where context has a big influence on predictions, a machine-learning based general field would be the right choice. Combinations of the two can be used in any dataset within Communications Mining.
A broader Regex (i.e. set of rules to define the general field) can also be used as the base of a custom general field. This combines the rules with contextual, machine learning based refinement through training within Communications Mining to create sophisticated custom general fields. This provides the most optimal performance as well as the necessary restrictions on values extracted for automation.
A Custom Regex General Field is made up of one or more Custom Regex Templates. Each template expresses one way to extract (and format) the general field.
Combined together, these templates offer a flexible and powerful way to cover multiple representations of the same general field type.
Una plantilla consta de dos partes:
- The regex (regular expression), which describes the constraints that need to be met by a span of text to be extracted as a general field
- El formato, que expresa cómo normalizar la cadena extraída en un formato más estándar
Por ejemplo, si tus ID de cliente pueden ser la palabra "ID" seguida de 7 dígitos, o una cadena alfanumérica de 9 caracteres, así es como se verán tus dos plantillas:
ID\
d{}
mostrará:
The Custom Regex Template can be tested on text to ensure that it behaves as expected. Any general field that would be extracted with the Template will be shown in a list, with its value, as well as the position of the start and end characters.
\d{4}
y el formato ID-{$}
, la siguiente cadena de prueba mostrará una extracción:
The regex is the pattern used to extract general fields in the text. See here for the syntax documentation.
Los grupos de captura con nombre pueden utilizarse para identificar una sección específica de la cadena extraída para su posterior formateo. Los nombres de los grupos de captura deben ser únicos en todas las plantillas y solo deben contener letras en minúscula o dígitos.
Formatting can be provided to post-process the extracted general field.
De forma predeterminada, no se aplica ningún formato y la cadena devuelta por la plataforma será la cadena extraída por la expresión regular. Sin embargo, si es necesario, se pueden definir transformaciones más complejas, utilizando las siguientes reglas.
$
. Ten en cuenta que el símbolo $
por sí solo representa la coincidencia completa de expresiones regulares.
{
y }
.
ID-
, la expresión regular y el formato serían:
My identification number is 1234567
, it will return one general field: ID-1234567
&
.
Expresión regular | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
Formatting | {$id1 & "-" & $id2} |
Texto | El primer ID es 123 y el segundo es 4567 |
General Field returned by the platform | 123-4567 |
Algunas funciones también pueden utilizarse en el formato para transformar la cadena extraída. Los nombres de las funciones y sus firmas están inspirados en Excel.
Convierte todos los caracteres del intervalo extraído a mayúsculas:
Expresión regular | \w{3} |
Formatting | {upper($)} |
Texto | abc |
General Field returned by the platform | ABC |
Convierte todos los caracteres del intervalo extraído a minúsculas:
Expresión regular | \w{3} |
Formatting | {lower($)} |
Texto | AbC |
General Field returned by the platform | abc |
Pone en mayúscula el intervalo extraído:
Expresión regular | \w+\s\w+ |
Formatting | {proper($)} |
Texto | alberto einstein |
General Field returned by the platform | Albert Einstein |
Rellena el intervalo extraído hasta un tamaño determinado con un carácter determinado.
Argumentos de la función:
- El texto que contiene los caracteres que se van a rellenar
- Tamaño de la cadena rellenada
- Carácter que se utilizará para el relleno
Expresión regular | \d{2,5} |
Formatting | {pad($, 5, "0")} |
Texto | 123 |
General Field returned by the platform | 00123 |
Reemplaza los caracteres por otros caracteres.
Argumentos de la función:
- El texto que contiene los caracteres que se van a sustituir
- Qué caracteres reemplazar
- Por qué deben reemplazarse los caracteres antiguos
Expresión regular | ab |
Formatting | {substitute($, "a", "12")} |
Texto | ab |
General Field returned by the platform | 12b |
Devuelve los primeros n caracteres del intervalo.
Argumentos de la función:
- El texto que contiene los caracteres que se van a extraer
- El número de caracteres a devolver
Expresión regular | \w{4} |
Formatting | {left($, 2)} |
Texto | ABCD |
General Field returned by the platform | AB |
Devuelve los últimos n caracteres del intervalo.
Argumentos de la función:
- El texto que contiene los caracteres que se van a extraer
- El número de caracteres a devolver
Expresión regular | \w{4} |
Formatting | {right($, 2)} |
Texto | ABCD |
General Field returned by the platform | CD |
Devuelve n caracteres después de la posición especificada del intervalo.
Argumentos de la función:
- El texto que contiene los caracteres que se van a extraer
- La posición del primer carácter a devolver
- El número de caracteres a devolver
Expresión regular | \w{5} |
Formatting | {mid($, 2, 3)} |
Texto | ABCDE |
General Field returned by the platform | BCD |