IXP – Intégration d'Elasticsearch

ixp

latest

false

Guide de l’utilisateur de Communications Mining

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Intégration d'Elasticsearch

Intégration Elasticsearch pour IXP sur Automation Cloud, permettant d'associer des prédictions à des données externes non téléchargées en tant que commentaires Communications Mining.

Communications Mining™ offre un ensemble étendu d'outils d'analyse intégrés. Cependant, il est parfois nécessaire de joindre les prédictions de Communications Mining avec des données qui ne peuvent pas être chargées dans le cadre des commentaires Communications Mining. Dans ces cas, une solution commune consiste à indexer les prédictions Communications Mining et toutes les données supplémentaires dans Elasticsearch et à utiliser un outil comme Kibana pour réaliser des analyses.

Ce tutoriel décrit comment importer les données de Communications Mining dans Elasticsearch et les visualiser dans Kibana.

Les données utilisées dans les exemples de ce tutoriel sont des e-mails factices générés à partir du domaine de l’assurance.

Stockage des données dans Elasticsearch

Définissez d'abord les données que nous voulons importer dans Elasticsearch. L’API Communications Mining™ fournit le texte du commentaire, les métadonnées du commentaire, les libellés prévus et les champs généraux prévus dans un objet JSON imbriqué. Voici un exemple de commentaire brut fourni par l’API Communications Mining.

Remarque :

Vous remarquerez peut-être différents champs de métadonnées selon la façon dont vos données ont été ingérées dans Communications Mining. Pour en savoir plus sur les champs d'objet de commentaires, consultez Commentaires.

{
  "comment": {
    "id": "c7a1c529-3f57-4be6-9102-c9f892b81ae51",
    "uid": "49ba2c56a945386c.c7a1c529-3f57-4be6-9102-c9f892b81ae51",
    "timestamp": "2021-03-29T08:36:25.607Z",
    "messages": [
      {
        "body": {
          "text": "The policyholder has changed their address to the new address: 19 Essex Gardens, SW17 2UL"
        },
        "subject": {
          "text": "Change of address - Policy SFG48807871"
        },
        "from": "CPX8460080@broker.com",
        "to": ["underwriter@insurer.com"],
        "sent_at": "2021-03-29T08:36:25.607Z"
      }
    ]
    // (... more properties ...)
  },
  "labels": [
    {
      "name": ["Admin"],
      "probability": 0.9995054006576538
    },
    {
      "name": ["Admin", "Change of address"],
      "probability": 0.9995054006576538
    }
  ],
  "entities": [
    {
      "name": "address-line-1",
      "formatted_value": "19 Essex Gardens",
      "span": {
        "content_part": "body",
        "message_index": 0,
        "char_start": 63,
        "char_end": 79,
        "utf16_byte_start": 126,
        "utf16_byte_end": 158
      }
    },
    {
      "name": "post-code",
      "formatted_value": "SW17 2UL",
      "span": {
        "content_part": "body",
        "message_index": 0,
        "char_start": 81,
        "char_end": 89,
        "utf16_byte_start": 162,
        "utf16_byte_end": 178
      }
    },
    {
      "name": "policy-number",
      "formatted_value": "SFG48807871",
      "span": {
        "content_part": "subject",
        "message_index": 0,
        "char_start": 27,
        "char_end": 38,
        "utf16_byte_start": 54,
        "utf16_byte_end": 76
      }
    }
  ]
}
{
  "comment": {
    "id": "c7a1c529-3f57-4be6-9102-c9f892b81ae51",
    "uid": "49ba2c56a945386c.c7a1c529-3f57-4be6-9102-c9f892b81ae51",
    "timestamp": "2021-03-29T08:36:25.607Z",
    "messages": [
      {
        "body": {
          "text": "The policyholder has changed their address to the new address: 19 Essex Gardens, SW17 2UL"
        },
        "subject": {
          "text": "Change of address - Policy SFG48807871"
        },
        "from": "CPX8460080@broker.com",
        "to": ["underwriter@insurer.com"],
        "sent_at": "2021-03-29T08:36:25.607Z"
      }
    ]
    // (... more properties ...)
  },
  "labels": [
    {
      "name": ["Admin"],
      "probability": 0.9995054006576538
    },
    {
      "name": ["Admin", "Change of address"],
      "probability": 0.9995054006576538
    }
  ],
  "entities": [
    {
      "name": "address-line-1",
      "formatted_value": "19 Essex Gardens",
      "span": {
        "content_part": "body",
        "message_index": 0,
        "char_start": 63,
        "char_end": 79,
        "utf16_byte_start": 126,
        "utf16_byte_end": 158
      }
    },
    {
      "name": "post-code",
      "formatted_value": "SW17 2UL",
      "span": {
        "content_part": "body",
        "message_index": 0,
        "char_start": 81,
        "char_end": 89,
        "utf16_byte_start": 162,
        "utf16_byte_end": 178
      }
    },
    {
      "name": "policy-number",
      "formatted_value": "SFG48807871",
      "span": {
        "content_part": "subject",
        "message_index": 0,
        "char_start": 27,
        "char_end": 38,
        "utf16_byte_start": 54,
        "utf16_byte_end": 76
      }
    }
  ]
}

Le schéma des commentaires bruts renvoyés par l’API Communications Mining n’est pas pratique pour le filtrage et l’interrogation de ces données dans Elasticsearch, vous devez donc modifier le schéma avant d’ingérer les données dans Elasticsearch. Voici un exemple de schéma horizontal que vous pouvez utiliser. Vous devez ajouter tous les champs dont vous avez besoin pour votre cas d'utilisation.

{
  "id": "c7a1c529-3f57-4be6-9102-c9f892b81ae51",
  "uid": "49ba2c56a945386c.c7a1c529-3f57-4be6-9102-c9f892b81ae51",
  "timestamp": "2021-03-29T08:36:25.607Z",
  "subject": "Change of address - Policy SFG48807871",
  "body": "The policyholder has changed their address to the new address: 19 Essex Gardens, SW17 2UL",
  // (... more fields ...)
  "labels": ["Admin", "Admin > Change of address"],
  "entities": {
    "policy_number": ["SFG48807871"],
    "address-line-1": ["19 Essex Gardens"],
    "post-code": ["SW17 2UL"]
  }
}
{
  "id": "c7a1c529-3f57-4be6-9102-c9f892b81ae51",
  "uid": "49ba2c56a945386c.c7a1c529-3f57-4be6-9102-c9f892b81ae51",
  "timestamp": "2021-03-29T08:36:25.607Z",
  "subject": "Change of address - Policy SFG48807871",
  "body": "The policyholder has changed their address to the new address: 19 Essex Gardens, SW17 2UL",
  // (... more fields ...)
  "labels": ["Admin", "Admin > Change of address"],
  "entities": {
    "policy_number": ["SFG48807871"],
    "address-line-1": ["19 Essex Gardens"],
    "post-code": ["SW17 2UL"]
  }
}

Remarque :

Un commentaire peut avoir zéro, un ou plusieurs libellés, de sorte que le champ labels doit être un tableau. De plus, si un ou plusieurs types de champ général ont été configurés pour l’ensemble de données, un commentaire contiendra zéro, un ou plusieurs champs généraux de chaque type de champ général. Les noms de libellé hiérarchiques dans la réponse de l'API brute sont eux-mêmes des tableaux (["Admin", "Change of address"]) et doivent être convertis en chaînes ("Admin > Change of address").

Récupérer des données

Pour récupérer les données, nous vous recommandons d'utiliser la. Pour obtenir un aperçu de toutes les méthodes de téléchargement de données disponibles, consultez la section Téléchargement des données. Lors de la création d'un flux, vous devez définir des seuils pour chaque libellé afin que les libellés avec des scores de confiance inférieurs au seuil soient supprimés.

Cette opération est la plus simple à partir de l’interface utilisateur de Communications Mining™ en accédant à la page « Flux » d’un ensemble de données. Après avoir utilisé les scores de confiance pour déterminer si un libellé s’applique, vous pouvez ensuite importer uniquement les noms de libellés dans Elasticsearch. Pour obtenir une discussion sur le moment où nous recommandons de supprimer ou de conserver les scores de confiance de libellé, consultez Libellés pour analyse de données.

Les champs généraux n’ont pas de scores de confiance, donc aucune gestion spéciale n’est requise.

Remarque :

Gestion des modifications de modèle Lorsque vous créez un flux, vous spécifiez une version de modèle, qui est utilisée pour fournir des prédictions lors de la récupération de commentaires à partir du flux. Même si vous continuez à entraîner de nouvelles versions de modèle sur la plate-forme, votre flux utilisera la version de modèle que vous avez spécifiée, vous fournissant des résultats déterministes.

Pour effectuer une mise à niveau vers une nouvelle version de modèle, vous devez créer un nouveau flux qui utilise cette version de modèle, puis mettre à jour votre code pour utiliser le nouveau flux. C'est pourquoi nous vous recommandons de rendre le nom du flux configurable dans votre code.

Pour vous assurer que les analyses qui utilisent des prédictions restent cohérentes, vous devez réingérer les prédictions pour les données historiques à l’aide de la version mise à jour du modèle. Vous pouvez le faire en ajoutant le flux vers l’horodatage avant votre commentaire le plus ancien, et en réingérant les données dès le début.

Visualisation des données dans Kibana

Une fois que vous avez indexé les données dans Elasticsearch, vous pouvez commencer à créer des visualisations. Cette section fournit des exemples simples pour un certain nombre d'outils de visualisation courants dans Kibana.

Minuterie

Vous pouvez utiliser l'expression suivante pour produire un diagramme des 5 libellés les plus courants au fil du temps.

Remarque :

Cela affiche les libellés de catégorie de niveau supérieur et de sous-catégorie.

.es(index=example-data,split=labels:5,timefield=@timestamp)
    .label("$1", "^.* > labels:(.+) > .*")
.es(index=example-data,split=labels:5,timefield=@timestamp)
    .label("$1", "^.* > labels:(.+) > .*")

Figure 1. Les 5 principaux libellés d'un ensemble de données.

Graphique à barres

Ce graphique à barres affiche les 20 premières adresses e-mail des expéditeurs dans l’ensemble de données. Les adresses e-mail de l’expéditeur et du destinataire font partie des métadonnées de commentaires dans les ensembles de données basés sur les e-mails.

Figure 2. Les 20 premières adresses e-mail des expéditeurs.

Graphique à secteurs

Ce graphique à secteurs affiche les libellés de sous-catégorie sous le libellé de niveau supérieur « Claim ». Les catégories de libellés sont définies par l’utilisateur qui entraîne le modèle.

Figure 3. Les sous-catégories du libellé de la revendication.

Sommaire de la page

Stockage des données dans Elasticsearch
Récupérer des données
Visualisation des données dans Kibana
Minuterie
Graphique à barres
Graphique à secteurs

Cette page vous a-t-elle été utile ?

PrécédentRécupérer des données pour Tableau avec Python

SuivantExtraction de champ général

Stockage des données dans Elasticsearch​

Récupérer des données​

Visualisation des données dans Kibana​

Minuterie​

Graphique à barres​

Graphique à secteurs​

Cette page vous a-t-elle été utile ?

Stockage des données dans Elasticsearch

Récupérer des données

Visualisation des données dans Kibana

Minuterie

Graphique à barres

Graphique à secteurs