- Introdução
- Balanceamento
- Clusters
- Desvio de conceito
- Cobertura
- Conjuntos de dados
- Campos gerais (anteriormente entidades)
- Rótulos (previsões, níveis de confiança, hierarquia etc.)
- Modelos
- Transmissões
- Classificação do Modelo
- Projetos
- Precisão
- Lembrar
- Mensagens revisadas e não revisadas
- Fontes
- Taxonomias
- Treinamento
- Previsões positivos e negativos verdadeiros e falsos
- Validação
- Mensagens
- Administração
- Gerencie origens e conjuntos de dados
- Entender a estrutura de dados e permissões
- Crie uma origem de dados na GUI
- Carregar um arquivo CSV para uma origem
- Criar um conjunto de dados
- Origens e conjuntos de dados multilíngues
- Habilitando o sentimento em um conjunto de dados
- Corrigir configurações de conjunto de dados
- Excluir mensagens por meio da interface do usuário
- Excluir um conjunto de dados
- Excluir uma origem
- Exportar um conjunto de dados
- Usando integrações do Exchange
- Preparando dados para carregamento de .CSV
- Treinamento e manutenção do modelo
- Noções Básicas sobre rótulos, campos gerais e metadados
- Hierarquia de rótulo e práticas recomendadas
- Definição dos seus objetivos de taxonomia
- Casos de uso de análise versus automação
- Transformando seus objetivos em rótulos
- Criação da sua estrutura taxonômica
- Práticas recomendadas de design de taxonomia
- Importando sua taxonomia
- Visão geral do processo de treinamento do modelo
- Anotação Generativa (Novo)
- Status do conjunto de dados
- Treinamento de modelos e práticas recomendadas de anotação
- Treinamento com análise de sentimento de rótulo habilitada
- Treinamento
- Introdução ao Refine
- Precisão e recall explicados
- Precisão e recall
- Como funciona a Validação?
- Compreender e melhorar o desempenho do modelo
- Por que um rótulo pode ter uma precisão média baixa?
- Treinamento usando Check label e Perda de rótulo
- Treinamento usando Ensinar rótulo (Refinar)
- Treinamento usando a Pesquisa (Refinamento)
- Noções Básicas e Aumentando a Cobertura
- Melhorando o balanceamento e usando o Rebalanceamento
- Quando parar de treinar seu modelo
- Uso dos campos gerais
- Extração generativa
- Uso de análise e monitoramento
- Automations e Communications Mining
- Informações de licenciamento
- Perguntas frequentes e mais
Uso dos campos gerais
Um guia para configurar e treinar Campos Gerais na plataforma.
É importante definir os principais pontos de dados (ou seja, campos) que você deseja extrair de seus dados do Communications Mining. Elas normalmente facilitam a automação downstream, mas também podem ser úteis para análises - especialmente para avaliar a taxa de sucesso potencial e o benefício das oportunidades de automação.
- Os campos gerais são campos que você pode querer extrair, que podem ser encontrados em vários tópicos/rótulos diferentes em um conjunto de dados.
- Os campos de extração são os campos condicionadas e criadas em um rótulo específico. Em outras palavras, ele está vinculado a um rótulo específico que você deseja automatizar.
Confira a documentação oficial para saber mais sobre os campos Extração generativa e Geral vs. extração. Se a Extração generativa não estiver disponível em sua região, continue a usar os campos gerais normalmente. O restante desta seção fornece orientação sobre como usar campos gerais.
Em última análise, as previsões de campos gerais, combinadas com rótulos, podem facilitar a automação, fornecendo os pontos de dados estruturados necessários para concluir uma tarefa ou processo específico. É muito mais eficiente treinar campos gerais em seu conjunto de dados em conjunto com rótulos, em vez de se concentrar em um e depois no outro (ou seja, treinar campos gerais após treinar uma taxonomia completa de rótulos).
Confira a documentação oficial para saber mais sobre os campos Extração generativa e Geral vs. extração. Se a Extração generativa não estiver disponível em sua região, continue a usar os campos gerais normalmente. O restante desta seção fornece orientação sobre como usar campos gerais.
O que são campos gerais?
Campos gerais são elementos adicionais de dados estruturados que podem ser extraídos de dentro das mensagens em seu conjunto de dados. Os campos gerais incluem pontos de dados como quantidades monetários, datas, códigos de moeda, endereços de e-mail, URLs, bem como muitas outras categorias específicas do setor (veja abaixo um exemplo).
A plataforma é capaz de prever a maioria dos campos gerais (exceto aqueles treinados do zero) assim que são habilitados, pois pode identificá-los com base em seu formato típico ou, em alguns casos, muito específico, e um conjunto de treinamento de campos gerais semelhantes.
Assim como os rótulos, os usuários podem aceitar ou rejeitar campos gerais que são previstos corretamente ou incorretamente, aprimorando a capacidade do modelo de identificá-los no futuro.
Tipos de campos gerais
Atualmente, há dois tipos principais de campos gerais:
- Campos gerais pré-treinados que normalmente são baseados em um conjunto de regras padrão ou personalizadas definidas. Por exemplo, Quantia Monetária, URL e Data
- Campos gerais treinados do zero por um usuário (como treinaria rótulos) baseado em machine learning
Campos gerais treináveis versus não treináveis
Todos os campos gerais são treináveis por natureza (campos gerais treinados do zero) ou podem ser treinados quando habilitados (todos os outros tipos de campos gerais).
Os campos gerais treináveis são aqueles que serão atualizados em tempo real na plataforma com base no treinamento fornecido pelos usuários. Para obter mais detalhes sobre campos gerais de treinamento, consulte aqui.
Se você habilitar o treinamento em um campo geral pré-treinado, que normalmente é baseado em um conjunto de regras padrão ou definidas personalizadas, você pode refinar a compreensão da plataforma desse campo geral dentro dos parâmetros dessas regras. Essencialmente, um treinamento adicional sobre eles reduzirá o escopo do que a plataforma pode considerar esse campo geral, mas não o aumentará.
Isso ocorre porque muitos desses campos gerais, como datas (por exemplo, 'amanhã') e quantidades numéricas (por exemplo, GBP 20), precisam ser normalizados em um formato de dados estruturados para sistemas downstream. Além disso, campos gerais como ISINs ou CUSIPs devem ter um formato definido. Assim, a plataforma não precisa ser treinada a prever algo que não esteja em conformidade com os formatos definidos.
Quando quaisquer campos gerais treináveis são atribuídos, a plataforma analisa o texto do campo geral, bem como o contexto do campo geral dentro do restante da comunicação, ou seja, o que está acontecendo antes e depois do valor do campo geral (no mesmo parágrafo, e o acima e abaixo). Ele aprende a prever melhor o campo geral com base nos próprios valores, e também como o valor aparece dentro do contexto da comunicação.
Se um campo geral pré-treinado não for definido como treinável, você ainda poderá aceitar ou rejeitar as previsões de campo gerais que você vê em seu conjunto de dados. Elas são atualizadas e refinadas offline usando esse feedback na plataforma fornecido pelos usuários. É útil para você aceitar ou rejeitar esses campos gerais ao revisar as mensagens. Para saber mais sobre como habilitar campos gerais em um conjunto de dados, consulte a página Habilitando, desabilitando, atualizando e criando campos gerais .
Ao configurar tipos de campos gerais, você pode selecionar uma das seguintes opções pré-criadas, por meio da opção modelo ao selecionar o tipo de dados para o tipo de campo.
Tipo de campo geral | Description |
---|---|
Um endereço de email. | |
Moeda | Um código de moeda, por exemplo, GBP, CHF ou USD. |
URL | Um localizador uniforme de recursos (ou seja, endereço web). |
SEDOL | Um identificador de segurança financeira, abreviação de Lista Oficial Diária da Exchange de Valores, com 7 caracteres. |
Código BIC | Um Código de Identificação de Negócios (BIC) é um padrão internacional sob a ISO 9362 para rotear transações de negócios e identificar partes do negócio. O código BIC tem 8 ou 11 caracteres. |
LEI | Um Identificador de Campo Geral Jurídico (LEI) é um identificador global exclusivo de campos gerais legais que participam de transações financeiras. O LEI é formatado como um código alfanumérico de 20 caracteres. |
está em | Um Número Internacional de Identificação de Valores Mobiliários (ISIN) identifica exclusivamente um título financeiro. ISIN é um código alfanumérico de 12 caracteres. |
Marcação a mercado (MTM ou M2M) | Marcação a mercado refere-se ao valor direito de um ativo ou passivo. A marcação a mercado é baseada no preço de mercado atual, no preço de ativos e passivos semelhantes ou em outro valor de mercado objectivamente obcecado. |
CUSIP | Um CUSIP é um número de 9 dígitos ou um código alfanumérico de 9 caracteres que identifica um título financeiro norte-americano com a finalidade de facilitar a compensação e venda de negócios. |
Permissões de usuário necessárias: "View Sources" E "Modify Datasets" OU "Datasets Admin".
Habilitando campos gerais em um novo conjunto de dados
Para habilitar campos gerais em um novo conjunto de dados que você deseja criar, basta selecioná-los durante o processo de configuração.
Clique no botão + na caixa mostrada abaixo e você será apresentado a um menu suspenso de todos os campos gerais que você pode habilitar para esse conjunto de dados. Basta clicar em todos os campos gerais que deseja habilitar antes de criar o conjunto de dados. Se você adicionar qualquer erro, clique no ícone “X” ao lado do nome do campo geral para removê-lo.
Para entender mais sobre como criar um novo conjunto de dados, consulte aqui.
Habilitar, atualizar e desabilitar campos gerais em um conjunto de dados existente
Se você deseja habilitar, atualizar ou desabilitar campos gerais para um conjunto de dados existente, você pode fazê-lo na guia Configurações na barra de navegação superior e, em seguida, selecionando a guia Rótulos e campos de extração.
Habilitando campos gerais:
Para habilitar campos gerais existentes, clique dentro da caixa Campos gerais e selecione os campos gerais que deseja habilitar no menu suspenso. Quando estiver satisfeito com suas seleções, selecione Atualizar campos gerais (conforme mostrado abaixo).
Esses campos gerais terão suas configurações pré-selecionadas para você. Você pode atualizá-los, incluindo torná-los treináveis, conforme mostrado abaixo.
Atualizando campos gerais:
Para atualizar um campo geral habilitado, clique no campo geral na caixa de campo geral, conforme mostrado nas imagens acima, e a janela modal “Editar campo geral” (abaixo) será exibida.
Aqui você pode atualizar o campo geral de base, o título do campo geral e o nome da API (esses conceitos são descritos em detalhes abaixo), além de tornar o campo geral 'treinável'.
Se você revisou anteriormente campos gerais para um tipo de campo geral que não foi definido como "treinável", essas informações ainda estão armazenadas.
Desabilitando campos gerais:
Para remover quaisquer campos gerais selecionados, basta clicar no ícone 'X' ao lado do nome do campo geral e, em seguida, clicar em Atualizar campos gerais.
Se você remover um campo geral e clicar em Atualizar campos gerais, isso também removerá os dados de treinamento para esse campo geral para esse conjunto de dados. Se você escolher reabilitar o campo Geral, será necessário treiná-lo novamente.
Se você cometer um erro ao atualizar os campos gerais, clique em "Redefinir" antes de clicar em Atualizar campos gerais e suas alterações não serão aplicadas.
Criação de novos campos gerais
As seções acima abordaram como habilitar e atualizar campos gerais pré-treinados existentes para conjuntos de dados novos e existentes. Em cada instância, para um conjunto de dados novo ou existente, você também pode criar novos campos gerais.
Os campos gerais recém-criados podem ser baseados em um campo geral pré-treinado existente ou podem ser treinados do zero (como um novo rótulo).
Você pode fazer isso clicando no ícone “+” na caixa de campo geral, seja no fluxo “Criar conjunto de dados” ou na página de configurações do conjunto de dados (conforme mostrado acima).
Isso criará o modal “Adicionar um novo campo geral”, conforme mostrado abaixo.
Aqui você pode definir os tipos de campo, título e nome da API, além de selecionar se o campo geral é treinável ou não (estes podem ser atualizados posteriormente , conforme mostrado acima).
Quando você tiver preenchido cada um dos campos (explicados abaixo), basta clicar em 'Criar '.
Field types
- Isso servirá como o estado inicial do seu novo campo geral, e o menu suspenso conterá uma lista de todos os campos gerais pré-treinados disponíveis para você
- Por exemplo, se você selecionar "Data" como seu campo geral base, todos os campos gerais previstos para esse tipo serão datas. Você pode treinar a plataforma para reconhecer apenas datas específicas
-
Se você quiser treinar um campo geral totalmente do zero, você pode selecionar "Nenhum - Treinar do zero " e, então, você começa basicamente com uma tela em branco ao treinar o campo geral. As previsões da plataforma para este campo geral serão totalmente baseadas nos exemplos de treinamento que você fornecer
Título geral do campo
- O título do campo geral é o nome do campo geral que aparecerá na IU da plataforma
ApiName
- O nome da API do campo Geral é o que será retornado por meio da API quando ela fornecer previsões para mensagens
- O nome da API não pode conter nenhum espaço ou pontuação, exceto hífen (-) e sublinhado ( _)
Permissões de usuário necessárias: Exibir origens E Exibir campos gerais.
Da mesma forma que você pode para os rótulos, você pode filtrar as mensagens de acordo com os campos gerais previstos ou atribuídos, tanto no Explorar quanto nos Relatórios.
Você pode aplicar qualquer combinação de E, QUALQUER E NÃO ao aplicar mais de um filtro de campo geral. Esses filtros podem oferecer uma flexibilidade muito maior ao treinar e interpretar seus dados e podem fornecer insights muito mais profundos sobre o que está acontecendo em seus canais de comunicação.
Aqui estão algumas das coisas que você pode fazer agora ao filtrar por previsões de campo gerais:
- Aplicar vários filtros de campos gerais de uma vez, tanto no Explorar quanto nos Relatórios
- Filtrar para mensagens que tenham um do número de campos gerais selecionados previstos (ou seja, QUALQUER UM do campo geral X E campo geral Y E ...)
- Filtrar para mensagens que tenham vários campos gerais diferentes previstos (ou seja, campo geral X E campo geral Y E ...)
- Filtrar para mensagens que não têm determinados campos gerais previstos (ou seja, NÃO campo geral Y)
- Pesquise campos gerais que contêm termos de pesquisa específicos, enquanto tem filtros de campos gerais aplicados
Todos os campos gerais que você habilitou no seu conjunto de dados aparecerão como mostrado abaixo na barra de filtros. A atribuição de campos gerais é abordada em detalhes na Revisão e aplicação de campos gerais.
Agora há duas maneiras de aplicar filtros de campos gerais e você pode usá-los combinados para criar o tipo certo de consulta.
O estado padrão é mostrado acima, no qual nenhum filtro é aplicado e todas as mensagens são exibidas (a menos que outro filtro seja aplicado).
Para atualizar o filtro de campo geral, use os botões explicados abaixo. Mudam de cor quando selecionados:
Mostrar mensagens que contenham qualquer campo geral anotado. | |
Mostrar mensagens previstas para conter um campo geral |
Se você quiser filtrar mensagens que têm alguns campos gerais anotados ou previstos para conter um campo geral, use os botões na parte superior (conforme mostrado acima). Se você quiser filtrar mensagens com campos gerais específicos anotados ou previstos, passe o mouse sobre o campo geral em questão e os mesmos dois botões aparecerão à direita.
Se você quiser filtrar para um campo geral atribuído ou previsto, selecione o nome do campo geral e ele mostra mensagens com qualquer um deles.
Para remover sua seleção, selecione o botão novamente e, para remover várias seleções, selecione Todos. Você também pode selecionar Limpar tudo na parte superior da barra de filtros, mas isso limpará todos os filtros selecionados, não apenas os filtros de campos gerais.
A taxonomia dos campos gerais funciona como uma barra de filtro normal e permite que você selecione vários campos gerais de uma só vez com um único clique em cada um.
Selecionar vários campos gerais da lista cria uma consulta do tipo ANY FROM.
Se você selecionou Campo geral A, Campo geral B e Campo geral C na barra Campo geral, isso cria uma consulta prevista Mostrar-me mensagens com Campo geral A, Campo geral B ou Campo geral C.
Ao filtrar para campos gerais específicos, você pode fazer várias seleções. Por exemplo, você pode filtrar para ver mensagens que tenham um campo geral de linha de endereço atribuído OU um campo geral de cidade previsto (conforme mostrado abaixo).
A segunda opção de filtro é o botão + Adicionar filtro de campo geral acima da barra de campo geral.
Isso habilita uma barra de campo geral suspensa que permite selecionar filtros mais complexos, como excluir certos campos gerais da consideração.
Nesse menu suspenso, você pode selecionar vários campos gerais para incluir ou excluir clicando no nome do campo geral (para atribuídos e previstos) ou dos botões individuais (incluindo menos para onde esse campo geral não é atribuído nem previsto).
O resultado se parece com este exemplo, que retorna mensagens previstas para ter o campo geral ID da fatura, mas não o campo geral Prod ID atribuído ou previsto:
Você pode selecionar + Adicionar filtro de campo geral várias vezes para adicionar camadas adicionais à sua consulta. Dois filtros de campo geral separados criam uma consulta do tipo AND, enquanto vários campos gerais selecionados no mesmo filtro de campo geral criam uma consulta do tipo ANY FROM.
No exemplo abaixo, vários filtros de campo geral foram aplicados individualmente. Isso cria um filtro que retornará mensagens que se espera que tenham qualquer um dos três campos gerais no primeiro filtro, mas que também têm o campo geral Número da Apólice previsto e não têm o campo geral Código Postal do Reino Unido previsto ou atribuído.
Uma dica útil é que, ao selecionar o & fazer login em um filtro individual contendo vários campos gerais, você pode dividi-los automaticamente em filtros individuais. Isso alteraria a consulta de ANY FROM (ou seja, qualquer um desses campos gerais previstos) a AND (ou seja, todos esses campos gerais previstos).
É possível combinar filtros da barra de campo geral e filtros de campo geral adicionados individualmente. Os filtros aplicados na barra de campo geral são tratados como uma consulta AND com quaisquer filtros de campo geral aplicados individualmente.
Por exemplo, na imagem abaixo, essa consulta combinada retornaria qualquer mensagem que tivesse ID de ORDER ou ID de PROD previstos.
Combine o filtro de campo geral usando a barra de campo geral e os filtros de campo geral adicionados individualmente.
O que esses novos filtros também significam é que agora você pode aplicar filtros de campo gerais e classificar por um campo geral específico para um modo de treinamento.
Permissões do usuário necessárias: "Visualizar Origens" E "Revisão e rótulo".
Os campos gerais previstos aparecem como texto realçado em cores, como na primeira linha da mensagem abaixo, com uma cor diferente aparecendo para cada tipo de campo geral diferente. Após um campo geral ter sido confirmado por um usuário, aplicando-o manualmente ou aceitando uma previsão, o campo geral aparecerá como um texto destacado com um contorno em negrito e mais escuro, conforme mostrado abaixo.
Se um parágrafo tiver campos gerais atribuídos, descartados ou aplicados, ele aparecerá destacado em cinza, conforme mostrado no corpo da mensagem abaixo.
Ao revisar campos gerais treináveis, é importante lembrar que a plataforma aprenderá tanto com os valores do campo geral que você atribuir, quanto com o contexto de onde eles aparecem dentro das comunicações, ou seja, a outra linguagem que é usada em torno dos próprios valores.
A plataforma considerará o contexto do idioma no mesmo parágrafo que o valor do campo geral, bem como os parágrafos únicos (denotados por uma nova linha separada) diretamente antes e após o parágrafo em que o campo geral se encontra.
Observação: para campos gerais que não estão definidos como "treináveis", as previsões da plataforma se baseiam totalmente nas regras definidas dentro da plataforma para esse campo geral. Isso pode ser benefício para quando um campo geral tem que seguir absolutamente um formato definido para uma automação downstream, com quaisquer valores incorretos causando uma falha ou exceção.
Quando a plataforma prevê quais campos gerais se aplicam a uma comunicação, ela atribui a cada previsão uma pontuação de confiança (%) para mostrar o quão confiável é de que o campo geral se aplica ao período de texto destacado. Você pode visualizar a pontuação de confiança de um campo geral passando o mouse sobre o campo geral.
Essa pontuação de confiança também é disponibilizada por meio da API, para que possa informar ações automatizadas downstream.
Assim que os campos gerais forem habilitados (veja aqui), a plataforma começará automaticamente a prevê-los nas mensagens em todo o seu conjunto de dados. Os usuários podem aceitar as previsões que estão corretas ou rejeitá-las quando estiverem incorretas. Cada uma dessas ações envia sinais de treinamento que serão usados para melhorar a compreensão da plataforma daquele campo geral.
Para os campos gerais pré-treinados que são treinados off-line (por exemplo, Quantidade monetário, URL, etc.), é mais importante, de uma perspectiva de melhoria, que os usuários rejeitem ou corrijam previsões erradas do que aceitem previsões corretas.
Para os campos gerais que treinam ao vivo na plataforma, é igualmente importante aceitar previsões corretas e rejeitar previsões incorretas. No entanto, você não precisa continuar aceitando muitos exemplos corretos de cada campo geral exclusivo para esses tipos (por exemplo, é um campo geral de organização exclusivo) se você não estiver encontrando os previstos incorretamente.
A principal advertência para isso é que, ao revisar qualquer campo geral em um parágrafo, você precisa revisar todos os outros campos gerais desse parágrafo.
Para revisar uma previsão de campo geral, passe o mouse sobre a previsão e a janela modal revisão de campo geral aparecerá, conforme mostrado no exemplo abaixo. Para aceitá-la, clique em "Confirmar". Para rejeitá-la, clique em "Ignorar".
Campos gerais e rótulos podem ser treinados independentemente um do outro. Revisar rótulos para uma mensagem não significa que você precise revisar os campos gerais nessa mesma mensagem. No entanto, é uma boa prática fazer as duas coisas ao mesmo tempo, para usar mais eficientemente seu tempo durante o treinamento do modelo.
Observação: é muito importante ao treinar campos gerais seguir as práticas recomendadas explicadas abaixo - particularmente no que diz respeito a não anotar parcialmente parágrafos.
Para entender o quão bem a plataforma é capaz de prever cada campo geral habilitado para um conjunto de dados (particularmente os treináveis), consulte aqui.
É importante que você rejeite previsões incorretas do campo geral, mas se o texto realçado for de fato um campo geral diferente (isso seria mais comum para campos gerais relacionados a datas) que você aplique a correta em seguida (veja abaixo como aplicar as previsões gerais campos).
Para aplicar um campo geral a algum texto em que a plataforma pode não ter previsto, os usuários simplesmente precisam realçar a seção do teste como faria se fosse copiá-la.
Um menu suspenso aparecerá, conforme mostrado abaixo, contendo todos os campos gerais que você habilitou para seu conjunto de dados. Basta clicar no correto para aplicá-lo ou pressionar o atalho de teclado correspondente.
O atalho de teclado padrão para cada campo geral é a letra que começa com. Se mais de um campo Geral começar com a mesma letra, um será atribuído aleatoriamente ao outro.
Após um campo geral ser aplicado, ele será destacado em cores com contorno em negrito (veja abaixo). Cada tipo de campo geral terá sua própria cor específica.
O valor de um determinado tipo de campo geral não pode ser dividido em vários parágrafos. O valor completo deve estar contido em um parágrafo para que seja extraído como um valor de campo geral.
Há duas práticas recomendadas muito importantes a serem lembradas ao aceitar, rejeitar ou aplicar campos gerais dentro de mensagens:
1. Não separe as palavras
É importante não dividir as palavras – o campo geral destacado deve cobrir a palavra inteira (ou várias) em questão, não apenas parte dela (veja o exemplo incorreto à esquerda abaixo, e o aplicativo correto à direita)
2. Não anote parcialmente os parágrafos
Ao anotar, se um usuário atribui um rótulo a uma mensagem, ele deve aplicar TODOS os rótulos que podem ser aplicados àquela mensagem; caso contrário, você ensina o modelo que esses outros rótulos não devem se aplicar. Para campos gerais, o mesmo é verdadeiro, exceto que os campos gerais são revisados ou aplicados no nível do parágrafo, em vez da mensagem inteira.
Os parágrafos em uma mensagem são separados por novas linhas. A linha de assunto de uma mensagem de e-mail é considerada seu próprio parágrafo único.
Certifique-se de revisar ou aplicar todos os campos gerais dentro de um parágrafo em todos os tipos de campos gerais se você revisar ou aplicar um deles. Aplicar, aceitar ou rejeitar campos gerais em um parágrafo significa que o parágrafo é tratado como "revisado" pela plataforma de uma perspectiva de campo geral. Portanto, é importante aceitar ou rejeitar TODAS as previsões nesse parágrafo.
O exemplo abaixo mostra os diferentes parágrafos que foram revisados na mensagem de email.
A mensagem exibida abaixo mostra o mesmo exemplo, em que o usuário não aceitou ou rejeitou todas as previsões do campo geral em um único parágrafo. Isso está incorreto, pois o modelo tratará falsamente o campo geral de quantidade monetário como uma previsão incorreta.
A plataforma exibe estatísticas de validação, avisos e ações recomendadas para os campos gerais habilitados na página Validação, assim como faz para todos os rótulos em sua taxonomia.
Para vê-los, navegue até a página Validação e selecione a guia Campos gerais na parte superior, conforme mostrado na imagem abaixo.
O processo no qual a plataforma valida sua capacidade de prever corretamente campos gerais é muito semelhante a como é feito para rótulos.
As mensagens são divididas (80:20) em um conjunto de treinamento e um conjunto de teste (determinado aleatoriamente pelo ID da mensagem de cada mensagem) quando são adicionados pela primeira vez ao conjunto de dados. Quaisquer campos gerais que foram atribuídos (previsões que foram aceitas ou corrigidas) cairão no conjunto de treinamento ou no conjunto de teste, com base no conjunto em que a mensagem em que eles estão foi atribuída originalmente.
Como às vezes pode haver um número muito grande de campos gerais em uma mensagem e não há garantia de que uma mensagem esteja no conjunto de treinamento ou de teste, você pode ver uma grande disparidade entre o número de campos gerais em cada conjunto.
Também pode haver instâncias em que todos os campos gerais atribuídos se enquadram no conjunto de treinamento. Como pelo menos um exemplo é necessário no conjunto de testes para calcular as pontuações de validação, esse campo geral exigiria mais exemplos atribuídos até que alguns estejam presentes no conjunto de testes.
As estatísticas individuais de precisão e recall para cada campo geral com dados de treinamento suficientes são calculadas de uma maneira muito semelhante à dos rótulos:
Precisão = Nº de campos gerais correspondentes / Nº de campos gerais previstos
Recall = Nº de campos gerais correspondentes / Nº de campos gerais reais
Um "campo geral correspondente" ocorre quando a plataforma prevê com precisão o campo geral (ou seja, sem correspondências parciais)
A pontuação F1 é simplesmente a média hermética tanto da precisão quanto do recall.
Vale a pena notar que as estatísticas de precisão e recall mostradas nesta página são mais úteis para os campos gerais que são treináveis ao vivo na plataforma (mostrado na segunda coluna acima), pois todos os campos gerais revisados para esses tipos de campo gerais serão diretamente afetar a capacidade da plataforma de prever esses campos gerais.
Portanto, sempre que possível, a aceitação de campos gerais corretos e a correção ou rejeição de campos gerais errados devem ser feitas.
Para campos gerais que são pré-treinados por meio de tipos de campos de modelo, para que as estatísticas de validação forneçam um exemplo preciso do desempenho, os usuários precisarão garantir que aceitem uma quantidade considerável de previsões corretas, além de corrigir as erradas.
Se eles tivessem que corrigir apenas previsões erradas, os conjuntos de treinamento e teste seriam artificialmente preenchidos apenas com instâncias em que a plataforma tem dificuldade em prever um campo geral, e não aquelas em que é mais capaz de prevê-las. Como a correção de previsões erradas para esses campos gerais não leva a uma atualização em tempo real desses campos gerais (eles são atualizados periodicamente offline), as estatísticas de validação podem não mudar por algum tempo e podem ficar artificialmente baixa.
Aceitar muitas previsões corretas pode não ser conveniente, pois esses campos gerais são previstos corretamente com muito mais frequência do que não. Mas se a maioria das previsões estiver correta para esses campos gerais, é provável que você não precise se preocupar com suas estatísticas de precisão e recall na página Validação.
As estatísticas de resumo (precisão média, recall médio e pontuação média de F1) são simplesmente médias de cada uma das pontuações de campo geral individuais.
Como acontece com os rótulos, apenas os campos gerais que têm dados de treinamento suficientes são incluídos nas pontuações médias. Aqueles que não têm dados de treinamento suficientes para serem incluídos têm um ícone de aviso ao lado de seu nome.
A página Validação de campos gerais mostra as estatísticas de desempenho gerais médias do campo, bem como um gráfico que mostra a pontuação F1 média de cada campo geral versus o tamanho do conjunto de treinamento. O gráfico também sinaliza campos gerais que têm avisos de desempenho laranja ou vermelho.
As estatísticas gerais de desempenho em campo mostradas são:
- Pontuação média de F1: média das pontuações de F1 em todos os campos gerais com dados suficientes para estimar com precisão o desempenho. Essa pontuação considera o recall e a precisão da mesma forma. Um modelo com uma pontuação F1 alta produz menos falsos positivos e negativos.
- Precisão média: média das pontuações de precisão em todos os campos gerais com dados suficientes para estimar com precisão o desempenho. Um modelo com alta precisão produz menos falsos positivos.
- Recall médio: média das pontuações de recall em todos os campos gerais, com dados suficientes para estimar com precisão o desempenho. Um modelo com alta recall produz menos falsos negativos.
O gráfico de desempenho geral do campo mostrado na guia Métricas da página Validação (veja acima) fornece uma indicação visual imediata de como cada campo geral individual está funcionando.
Para um campo geral aparecer neste gráfico, ele deve ter pelo menos 20 exemplos fixados presentes no conjunto de treinamento usado pela plataforma durante a validação. Para garantir que isso aconteça, os usuários devem fornecer no mínimo 25 (muitas vezes mais) exemplos fixados por campo geral de 25 mensagens diferentes.
Cada campo geral será plotado como uma de três cores, com base na compreensão do modelo de como o campo geral está funcionando. Abaixo, explicamos o que elas significam:
Indicadores gerais de desempenho em campo:
- Os campos gerais plotados em azul no gráfico têm um nível de desempenho satisfatório . Isso se baseia em vários fatores que contribuem, incluindo o número e variedade de exemplos e precisão média para esse campo geral
- Campos gerais plotados em amarelo têm desempenho um pouco abaixo do satisfatório. Eles podem ter precisão médiarelativamente baixa ou não ter exemplos de treinamento suficientes. Estes campos gerais exigem um pouco de treinamento/correção para melhorar seu desempenho
- Os campos gerais plotados em vermelho são campos gerais com baixo desempenho. Eles podem ter uma precisão média muito baixa ou não ter exemplos de treinamento suficientes. Estes campos gerais podem exigir consideravelmente mais treinamento/correção para trazer seu desempenho para um nível satisfatório
Os usuários podem selecionar campos gerais individuais na barra de filtro de campo geral (ou clicando na plotagem do campo geral no gráfico Todos os campos gerais) para ver as estatísticas de desempenho do campo geral.
A visualização do campo geral específico também mostrará avisos de desempenho e sugestões de próxima melhor ação para ajudar a melhorar seu desempenho.
Permissões de usuário necessárias: revisar e anotar.
Assim como os rótulos de treinamento, os campos gerais de treinamento são o processo pelo qual um usuário ensina a plataforma quais campos gerais se aplicam a uma determinada mensagem usando vários modos de treinamento.
Assim como os rótulos, os modos “ Ensinar ”, “ Verificar ” e “ Perdidos ” estão disponíveis para ajudar a treinar e melhorar o desempenho dos campos gerais e podem ser acessados 1) na página Explorar usando o menu suspenso de treinamento, ou 2) seguindo as ações recomendadas na guia Campos gerais da página Validação.
Se um campo geral específico tiver um aviso de desempenho, a plataforma recomenda a próxima ação recomendada para ajudar a lidar com esse aviso, listada em ordem de prioridade. Isso será exibido quando você selecionar um campo Geral específico da Taxonomia ou do gráfico Todos os campos gerais.
As próximas melhores sugestões de ações funcionam como links nos quais você pode clicar para ser direcionado para a visualização do treinamento que a plataforma sugere, a fim de melhorar o desempenho do campo geral. As sugestões são ordenadas de maneira inteligente com a ação de maior prioridade para melhorar o campo geral listado primeiro.
Esta é a ferramenta mais importante para ajudar você a entender o desempenho de seus campos gerais e deve ser usada regularmente como um guia ao tentar melhorar o desempenho do campo geral.
A tabela a seguir resume quando a plataforma recomenda cada modo de treinamento de campo geral:
Ensinar campo geral | Verificar campo geral | Campo geral ausente |
- Mostrar previsões para um rótulo em que o modelo fica mais confuso se ele se aplica ou não - Para campos gerais de treinamento em mensagens não revisadas |
- Mostra mensagens em que a plataforma acha que o campo geral pode ter sido aplicado de maneira incorreta - Para o treinamento de campos gerais em mensagens revisadas para tentar encontrar e corrigir quaisquer inconsistências |
- Mostra mensagens que a plataforma julga que podem estar faltando no campo geral selecionado - Para o treinamento de campos gerais em mensagens revisadas para tentar encontrar e corrigir quaisquer inconsistências |
O uso do campo Ensinar geral aumenta o desempenho do campo geral, porque o modelo está recebendo novas informações em mensagens sobre as quais não tem certeza, em oposição àquelas para as quais já existem previsões altamente confiáveis.
A plataforma recomenda Ensinar Campos Gerais quando:
- Há um aviso de desempenho ao lado de um campo geral (conforme visto abaixo - quando o mín. 25 exemplos não foi fornecida)
- A pontuação F1 em um determinado campo geral é baixa
- Pode não haver sempre um contexto óbvio no texto de um campo geral ou há muitas variações nos valores gerais do campo para um determinado tipo
Usar campo geral de verificação ajuda a identificar inconsistências no conjunto revisado, enquanto melhora a compreensão do modelo do campo geral, garantindo que o modelo tenha exemplos corretos e consistentes para fazer previsões. Isso melhorará a recuperação de um campo geral.
A plataforma recomenda Verificar Campos Gerais quando:
- Há baixo recall, mas alta precisão
- As previsões que a plataforma faz são muito precisas. Porém, na maior parte do tempo em que o campo geral foi aplicado, ela não captura esses exemplos
(Para obter mais detalhes sobre cálculos para validação de campo geral, consulte aqui)
O uso do campo geral ausente ajuda a localizar exemplos no conjunto revisado que deveria ter o campo geral selecionado, mas não tem. Isso também ajudará a identificar mensagens parcialmente anotadas que podem afetar a capacidade do modelo de prever um campo geral. Isso melhorará a precisão de um campo geral e garantirá que o modelo tenha exemplos corretos e consistentes para fazer previsões.
A plataforma recomenda Campo Geral Perdido quando:
- Há um alto recall, mas uma baixa precisão
- Prevemos incorretamente campos gerais, mas quando os prevemos corretamente, capturamos muitos dos exemplos que deveriam estar lá
Para obter mais detalhes sobre cálculos para validação de campo geral, consulte a página Validação para campos gerais .
Permissões necessárias: Modificar conjuntos de dados.
Use campos gerais Regex personalizados para extrair e formatar intervalos de texto que tenham uma estrutura repetitiva conhecida, como IDs ou números de referência.
Esta é uma opção útil para campos gerais simples e estruturados com pouca variação. No caso de campos gerais com variação significativa e onde o contexto tem uma grande influência nas previsões, um campo geral baseado em machine learning é a escolha certa. Você pode usar combinações dos dois em qualquer conjunto de dados dentro do Communications Mining.
Um Regex mais amplo (ou seja, conjunto de regras para definir o campo geral) também pode ser usado como a base de um campo geral personalizado. Isso combina as regras com refinamento contextual baseado em machine learning por meio de treinamento dentro do Communications Mining para criar campos gerais personalizados sofisticados. Isso fornece o desempenho ideal, bem como as restrições necessárias sobre valores extraídos para automação.
Um campo geral Regex personalizado é composto de um tipo de campo com o tipo de dados Regex, que, por sua vez, tem um ou mais modelos de Regex personalizados. Cada modelo expressa uma maneira de extrair (e formatar) o campo geral.
Combinados, esses modelos oferecem uma maneira flexível e poderosa de cobrir várias representações do mesmo tipo de campo geral.
Um modelo é composto de duas partes:
- O regex (expressão regular), que descreve as restrições que precisam ser atendidas por um período de texto a ser extraído como um campo geral.
- A formatação, que expressa como normalizar a string extraída em um formato mais padrão.
ID\
d{}
mostrará:
O Modelo de Regex Personalizado pode ser testado em texto para garantir que ele se comporte conforme o esperado. Qualquer campo geral que seria extraído com o Modelo será mostrado em uma lista, com seu valor e a posição dos caracteres inicial e final.
\d{4}
e a formatação ID-{$}
, a seguinte string de teste mostrará uma extração:
O regex é o padrão usado para extrair campos gerais no texto. Verifique a documentação da sintaxe.
Os grupos de captura nomeados podem ser usados para identificar uma seção específica da string extraída para formatação subsequente. Os nomes dos grupos de captura devem ser exclusivos em todos os modelos e devem conter apenas letras minúsculas ou dígitos.
Pode ser fornecida formatação para pós-processar o campo geral extraído.
Por padrão, nenhuma formatação é aplicada e a string retornada pela plataforma será a string extraída pelo regex. No entanto, se necessário, transformações mais complexas podem ser definidas, usando as seguintes regras.
$
. Observe que o símbolo $
, por si só, representa a correspondência completa do regex.
{
e }
chaves.
ID-
, então o regex e a formatação seriam:
ID-1234567
&
.
Regex | (?P<id1>\b\d{3}\b)|(?P<id2>\b\d{4}\b) |
Formatting | {$id1 & "-" & $id2} |
Texto | O primeiro ID é 123 e o segundo é 4567 |
Campo Geral retornado pela plataforma | 123-4567 |
Algumas funções também podem ser usadas na formatação para transformar a string extraída. Os nomes das funções e suas assinaturas são inspirados no Excel.
Converte todos os caracteres no intervalo extraído para letras maiúsculas:
Regex | \w{3} |
Formatting | {upper($)} |
Texto | abc |
Campo Geral retornado pela plataforma | ABC |
Converte todos os caracteres no período extraído para minúsculas:
Regex | \w{3} |
Formatting | {lower($)} |
Texto | AbC |
Campo Geral retornado pela plataforma | abc |
Para capitalizar o período extraído:
Regex | \w+\s\w+ |
Formatting | {proper($)} |
Texto | Gilberto EINSTEIN |
Campo Geral retornado pela plataforma | Alberto Einteniense |
Aumenta o período extraído até um determinado tamanho com um determinado caractere.
Argumentos de função:
- O texto com os caracteres a serem preenchidos
- Tamanho da string preenchida
- Caractere a ser usado para preenchimento
Regex | \d{2,5} |
Formatting | {pad($, 5, "0")} |
Texto | 123 |
Campo Geral retornado pela plataforma | 00123 |
Substitui caracteres por outros caracteres.
Argumentos de função:
- O texto com os caracteres a serem substituídos
- Quais caracteres substituir
- Como os caracteres antigos devem ser substituídos
Regex | ab |
Formatting | {substitute($, "a", "12")} |
Texto | ab |
Campo Geral retornado pela plataforma | 12b |
Retorna os primeiros n caracteres do período.
Argumentos de função:
- O texto com os caracteres a serem extraídos
- O número de caracteres a serem retornados
Regex | \w{4} |
Formatting | {left($, 2)} |
Texto | ABCD |
Campo Geral retornado pela plataforma | AB |
Retorna os últimos n caracteres do período.
Argumentos de função:
- O texto com os caracteres a serem extraídos
- O número de caracteres a serem retornados
Regex | \w{4} |
Formatting | {right($, 2)} |
Texto | ABCD |
Campo Geral retornado pela plataforma | CD |
Retorna n caracteres após a posição especificada do período.
Argumentos de função:
- O texto com os caracteres a serem extraídos
- A posição do primeiro caractere a retornar
- O número de caracteres a serem retornados
Regex | \w{5} |
Formatting | {mid($, 2, 3)} |
Texto | ABCDE |
Campo Geral retornado pela plataforma | BCD |
- Definição e configuração de seus campos
- Noções Básicas sobre Campos
- Quais modelos pré-construídos estão disponíveis para campos gerais?
- Tipos de campo de modelo padrão para campos gerais
- Habilitar, desabilitar, atualizar e criar campos gerais
- Filtragem de campo geral
- Aplicando filtros de previsão avançados
- Barra de campo geral
- Adicionar filtro de campo geral
- Combinação de filtros da barra de campos gerais e filtros de campos gerais adicionados
- Combinar filtros de campo gerais e classificação por campo geral para treinamento
- Como revisar e aplicar campos gerais
- Como identificar previsões de campo gerais
- Como a plataforma faz previsões de campos gerais para campos gerais treináveis?
- Pontuações de confiança do campo geral
- Aceitando e rejeitando previsões de campo gerais
- Aplicando campos gerais
- Best Practice
- Validação para campos gerais
- Introdução
- Como funciona a validação de campos gerais?
- Como as pontuações são calculadas?
- Campos gerais treináveis
- Campos gerais pré-treinados
- O que significa o resumo das estatísticas?
- Métricas
- Compreender o desempenho geral do campo
- Desempenho geral individual no campo
- Como melhorar o desempenho do campo geral
- Visão geral
- Ações recomendadas para o campo geral
- Modos de treinamento de campo gerais
- Uso do campo Ensinar geral
- Usando Verificar Campos Gerais
- Usando Campo Geral Perdido
- Como criar campos gerais do regex personalizados
- O que são campos gerais Regex personalizados?
- Modelo de Regex personalizado
- Validação de digitação avançada
- Visualização da extração
- Regex
- Formatting
- Variáveis
- Operações de string
- Funções
- Superior
- Inferior
- Própria
- Preencher
- Substituir
- Left
- Direita
- Meio