- Introdução
- Balanceamento
- Clusters
- Desvio de conceito
- Cobertura
- Conjuntos de dados
- General fields (previously Entities)
- Rótulos (previsões, níveis de confiança, hierarquia etc.)
- Modelos
- Transmissões
- Classificação do Modelo
- Projetos
- Precisão
- Lembrar
- Mensagens revisadas e não revisadas
- Fontes
- Taxonomias
- Treinamento
- Previsões positivos e negativos verdadeiros e falsos
- Validação
- Mensagens
- Administração
- Gerencie origens e conjuntos de dados
- Entender a estrutura de dados e permissões
- Crie uma origem de dados na GUI
- Carregar um arquivo CSV para uma origem
- Criar um conjunto de dados
- Origens e conjuntos de dados multilíngues
- Habilitando o sentimento em um conjunto de dados
- Corrigir configurações de conjunto de dados
- Excluir mensagens por meio da interface do usuário
- Excluir um conjunto de dados
- Exportar um conjunto de dados
- Usando integrações do Exchange
- Preparando dados para carregamento de .CSV
- Treinamento e manutenção do modelo
- Understanding labels, general fields and metadata
- Hierarquia de rótulo e práticas recomendadas
- Definição dos seus objetivos de taxonomia
- Casos de uso de análise versus automação
- Transformando seus objetivos em rótulos
- Criação da sua estrutura taxonômica
- Práticas recomendadas de design de taxonomia
- Importando sua taxonomia
- Visão geral do processo de treinamento do modelo
- Anotação Generativa (Novo)
- Entendendo o status do seu conjunto de dados
- Treinamento de modelos e práticas recomendadas de anotação
- Treinamento com análise de sentimento de rótulo habilitada
- Treinamento
- Introdução ao Refine
- Precisão e recall explicados
- Precisão e recall
- Como funciona a Validação?
- Compreender e melhorar o desempenho do modelo
- Por que um rótulo pode ter uma precisão média baixa?
- Treinamento usando Check label e Perda de rótulo
- Treinamento usando Ensinar rótulo (Refinar)
- Treinamento usando a Pesquisa (Refinamento)
- Noções Básicas e Aumentando a Cobertura
- Melhorando o balanceamento e usando o Rebalanceamento
- Quando parar de treinar seu modelo
- Defining and setting up your general fields
- Understanding general fields
- Which pre-trained general fields are available?
- Enabling, disabling, updating and creating general fields
- General field filtering
- Reviewing and applying general fields
- Validation for general fields
- Improving general field performance
- Building custom regex general fields
- Extração generativa
- Uso de análise e monitoramento
- Automations e Communications Mining
- Perguntas frequentes e mais
![](https://docs.uipath.com/_next/static/media/grid.05ebd128.png?w=3840&q=100)
Building custom regex general fields
Permissões necessárias: "Modificar conjuntos de dados".
A Custom Regex General Field can be used to extract and format spans of text that have a known repetitive structure, such as IDs or reference numbers.
This is a useful option for simple, structured general fields with little variation, whereas for those with significant variation and where context has a big influence on predictions, a machine-learning based general field would be the right choice. Combinations of the two can be used in any dataset within Communications Mining.
A broader Regex (i.e. set of rules to define the general field) can also be used as the base of a custom general field. This combines the rules with contextual, machine learning based refinement through training within Communications Mining to create sophisticated custom general fields. This provides the most optimal performance as well as the necessary restrictions on values extracted for automation.
A Custom Regex General Field is made up of one or more Custom Regex Templates. Each template expresses one way to extract (and format) the general field.
Combined together, these templates offer a flexible and powerful way to cover multiple representations of the same general field type.
Um modelo é composto de duas partes:
- The regex (regular expression), which describes the constraints that need to be met by a span of text to be extracted as a general field
- A formatação, que expressa como normalizar a string extraída em um formato mais padrão
Por exemplo, se os IDs dos seus clientes podem ser a palavra “ID” seguida de 7 dígitos ou uma string alfanumérica de 9 caracteres, veja como seus dois modelos ficarão:
ID\
d{}
mostrará:
The Custom Regex Template can be tested on text to ensure that it behaves as expected. Any general field that would be extracted with the Template will be shown in a list, with its value, as well as the position of the start and end characters.
\d{4}
e a formatação ID-{$}
, a seguinte string de teste mostrará uma extração:
The regex is the pattern used to extract general fields in the text. See here for the syntax documentation.
Os grupos de captura nomeados podem ser usados para identificar uma seção específica da string extraída para formatação subsequente. Os nomes dos grupos de captura devem ser exclusivos em todos os modelos e devem conter apenas letras minúsculas ou dígitos.
Formatting can be provided to post-process the extracted general field.
Por padrão, nenhuma formatação é aplicada e a string retornada pela plataforma será a string extraída pelo regex. No entanto, se necessário, transformações mais complexas podem ser definidas, usando as seguintes regras.
$
. Observe que o símbolo $
, por si só, representa a correspondência completa do regex.
{
e }
chaves.
ID-
, então o regex e a formatação seriam:
My identification number is 1234567
, it will return one general field: ID-1234567
&
.
Regex | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
Formatting | {$id1 & "-" & $id2} |
Texto | O primeiro ID é 123 e o segundo é 4567 |
General Field returned by the platform | 123-4567 |
Algumas funções também podem ser usadas na formatação para transformar a string extraída. Os nomes das funções e suas assinaturas são inspirados no Excel.
Converte todos os caracteres no intervalo extraído para letras maiúsculas:
Regex | \w{3} |
Formatting | {upper($)} |
Texto | abc |
General Field returned by the platform | ABC |
Converte todos os caracteres no período extraído para minúsculas:
Regex | \w{3} |
Formatting | {lower($)} |
Texto | AbC |
General Field returned by the platform | abc |
Para capitalizar o período extraído:
Regex | \w+\s\w+ |
Formatting | {proper($)} |
Texto | Gilberto EINSTEIN |
General Field returned by the platform | Alberto Einteniense |
Aumenta o período extraído até um determinado tamanho com um determinado caractere.
Argumentos de função:
- O texto com os caracteres a serem preenchidos
- Tamanho da string preenchida
- Caractere a ser usado para preenchimento
Regex | \d{2,5} |
Formatting | {pad($, 5, "0")} |
Texto | 123 |
General Field returned by the platform | 00123 |
Substitui caracteres por outros caracteres.
Argumentos de função:
- O texto com os caracteres a serem substituídos
- Quais caracteres substituir
- Como os caracteres antigos devem ser substituídos
Regex | ab |
Formatting | {substitute($, "a", "12")} |
Texto | ab |
General Field returned by the platform | 12b |
Retorna os primeiros n caracteres do período.
Argumentos de função:
- O texto com os caracteres a serem extraídos
- O número de caracteres a serem retornados
Regex | \w{4} |
Formatting | {left($, 2)} |
Texto | ABCD |
General Field returned by the platform | AB |
Retorna os últimos n caracteres do período.
Argumentos de função:
- O texto com os caracteres a serem extraídos
- O número de caracteres a serem retornados
Regex | \w{4} |
Formatting | {right($, 2)} |
Texto | ABCD |
General Field returned by the platform | CD |
Retorna n caracteres após a posição especificada do período.
Argumentos de função:
- O texto com os caracteres a serem extraídos
- A posição do primeiro caractere a retornar
- O número de caracteres a serem retornados
Regex | \w{5} |
Formatting | {mid($, 2, 3)} |
Texto | ABCDE |
General Field returned by the platform | BCD |