communications-mining
latest
false
Important :
Ce contenu a été traduit à l'aide d'une traduction automatique.
UiPath logo, featuring letters U and I in white
Guide du développeur Communications Mining
Last updated 19 nov. 2024

Comparaison de Communications Mining et de Google AutoML pour l'intelligence des données conversationnelles

Lorsqu'il s'agit de tirer parti de la puissance du NLP et du ML pour automatiser les processus, obtenir de meilleures analyses et mieux comprendre les conversations d'une entreprise, la première décision est généralement d' acheter une solution ou de créer la vôtre.

Cet article compare les performances et la philosophie de conception de la plate-forme Communications Mining à l’une des solutions cloud NLP les plus performantes, AutoML de Google.

Nous espérons fournir quelques informations sur le processus d'utilisation d'un produit d'intelligence de communication d'entreprise dédié par rapport à l'utilisation d'un outil plus général, et les compromis auxquels on peut s'attendre.

philosophie de conception

Communications Mining et Google AutoML sont deux solutions qui obligent l'utilisateur à créer un ensemble de données d'entraînement annoté qui associe les libellés aux conversations. La qualité des données d'entraînement détermine la qualité des prédictions renvoyées par ce modèle entraîné.

Astuce :

Pour obtenir des données d'entraînement de haute qualité, il est essentiel d' appliquer des libellés représentant de manière cohérente et précise du domaine sur lequel vous souhaitez faire des prédictions.

La première différence majeure entre Communications Mining et Google AutoML réside dans la philosophie de conception autour de l'utilisation du produit.

Annotation des tâches vs apprentissage actif

Le flux AutoML consiste à créer un ensemble de données annoté hors ligne, qui est téléchargé et utilisé pour entraîner un modèle. L'annotation d'un ensemble de données est une opération coûteuse qui nécessite beaucoup de travail en amont. La façon dont les libellés sont produits est hors de portée pour AutoML, mais une solution possible consiste à sous-traiter l'annotation à des tiers. Google fournit des tâches d’annotation à cette fin, qui sont intégrées à AutoML;

Ceci est sous-optimal pour plusieurs raisons

  • L'accès à des tiers est souvent utilisé pour les conversations internes sensibles.

  • Il n’est peut-être pas souhaitable de sous-traiter l’annotation à des personnes qui ne disposent pas des informations pertinentes nécessaires pour saisir pleinement les complexités des communications d’une entreprise

  • La connaissance contextuelle du domaine est clé pour des données d'entraînement de haute qualité. Par exemple, tout le monde peut annoter des images de chat et de chien, mais moins les e-mails d'une boîte aux lettres par défaut de la banque d'investissement. Pour cela, des experts en la matière (SME) sont requis.

À Communications Mining, nous encourageons les utilisateurs à télécharger une grande quantité de données non annotées et à utiliser notre apprentissage actif pour créer l'annotation de manière interactive. Nous estimons que l'exploration et l'annotation interactives des données sont essentielles pour créer un ensemble de libellés qui capturent réellement toutes les informations et les détails intéressants qui résident dans les conversations d'une entreprise au niveau de précision approprié.

Bien sûr, si vous avez déjà un ensemble de données annoté que vous souhaitez utiliser comme point de départ, vous pouvez également utiliser notre outil CLI pour télécharger l’ensemble de données annoté.

Création de modèles de cascade et d'agilité

Ces deux philosophies de conception renvoient aux modèles de développement logiciel cascade et Agile . Alors que le premier fractionne un projet en segments séquentiels, le second permet plus de flexibilité et invite à réévaluer les priorités.
Modèle de cascade utilisé par AutoML pour créer un modèle d'apprentissage automatiquedocs image
Si un ensemble de données annoté volumineux est requis en amont, la première étape consiste à décider quels libellés/concepts seront capturés par le modèle NLP. Fondamentalement, cette décision doit être prise avant toute exploration de données substantielle.
Une approche interactive ouvre la porte à la découverte de nouveaux concepts au fur et à mesure que vous annotez l'ensemble de données. Les concepts existants peuvent être étoffés, ou de tout nouveaux concepts qui étaient auparavant passés inaperçus peuvent être découverts. Si les PME découvrent de nouveaux concepts qui n'ont pas été capturés par les exigences, le modèle de cascade ne permet pas d'adapter et d'intégrer ces nouvelles informations, ce qui conduit au final à de mauvais modèles.
Modèle Agile utilisé par Communications Mining pour créer un modèle d'apprentissage automatiquedocs image
Dans le monde de l'apprentissage automatique, où les modèles peuvent souvent échouer de manière inattendue et où la validation du modèle est un processus difficile, la méthode de cascade peut être trop fragile et avoir des temps d'itération beaucoup trop longs pour déployer de manière fiable un modèle en production.

AutoML fournit une aide pour améliorer un modèle en surfaçant de faux positifs et de faux négatifs pour chaque libellé. Communications Mining fournit un ensemble d'avertissements et d'actions suggérées pour chaque libellé, ce qui permet aux utilisateurs de mieux comprendre les modes de défaillance de leur modèle et ainsi le moyen le plus rapide de l'améliorer.

Modèles de données

Un autre axe selon lequel AutoML et Communications Mining diffèrent est le modèle de données qu'ils utilisent. AutoML fournit une structure très générale pour les entrées et les cibles. Communications Mining est optimisé pour les principaux canaux de communication utilisant les langages naturels.

Conversations semi-structurées

La plupart des conversations numériques se déroulent dans l'un des formats suivants :

  • Emails

  • Tickets

  • Chats

  • Appels téléphoniques

  • Commentaires/avis/enquêtes

Ce sont tous des formats semi-structurés, qui ont des informations au-delà du texte qu'ils contiennent. Un e-mail a un expéditeur et des destinataires, ainsi qu'un objet. Les chat ont des participants et des horodatages différents. Les avis peuvent avoir des métadonnées associées, comme le score.

AutoML n'a pas de moyen canonique pour représenter ces informations semi-structurées lors du téléchargement d'exemples d'apprentissage, il traite uniquement avec du texte. Communications Mining fournit une prise en charge de première classe de la structure des e-mails, ainsi que des champs de métadonnées arbitraires via les propriétés utilisateur.

Comme le montre l’exemple ci-dessous, les e-mails d’entreprise contiennent souvent de grandes signatures et/ou des clauses de non-responsabilité qui peuvent être beaucoup plus longues que le contenu réel de l’e-mail. AutoML n'a pas de logique de suppression de signatures, c'est pourquoi nous avons utilisé Communications Mining pour analyser les signatures avant de les transmettre à AutoML. Alors que les algorithmes d’apprentissage automatique modernes peuvent assez bien gérer le bruit dû aux signatures, il n’en va pas de même pour les labellisations humaines. Lorsque vous essayez d’analyser un e-mail pour détecter tous les libellés qui s’appliquent et qui détectent des thèmes intéressants, la charge Cognitive d’avoir à ignorer les longues signatures n’est pas invalide et peut entraîner une mauvaise qualité de l’étiquette.

Exemple d'e-mail de banque d'investissement. L'e-mail a un objet, un expéditeur, des destinataires, des champs de métadonnées ainsi qu'une longue signaturedocs image

Concepts associés

Les concepts dans les conversations d'entreprise sont rarement indépendants, il est souvent plus naturel d'essayer de regrouper les libellés dans une hiérarchie de libellés structurée. Par exemple, une plate-forme de commerce en ligne peut vouloir capturer ce que les gens pensez de leur livraison et créer des sous-libellés tels que Delivery > Speed Delivery > Cost Delivery > Tracking. Pour des informations plus précises, d'autres répartitions sont possibles telles que Delivery > Cost > Free Shipping Delivery > Cost > Taxes & Customs.
Le regroupement des libellés dans une hiérarchie permet aux utilisateurs d'avoir une image plus claire de ce qu'ils annotent et d'avoir un meilleur modèle cognitif pour les libellés qu'ils définissent. Cela permet également naturellement de meilleures analyses et automatisations puisque les libellés sont automatiquement agrégés dans leurs parents. Dans l'exemple précédent, nous pouvons suivre les analyses pour le libellé Delivery de niveau supérieur sans avoir besoin de faire explicitement quoi que ce soit sur les libellés enfants.

AutoML ne prend pas en charge les libellés structurés, mais suppose une opérabilité complète entre les libellés. Il s'agit du modèle de données le plus général pour les libellés NLP, mais nous estimons qu'il n'a pas la spécificité requise pour fonctionner de manière optimale avec des conversations semi-structurées.

Outre la structure de l’étiquette, le sentiment d’un morceau de texte est souvent intéressant pour les commentaires ou l’analyse des enquêtes. Google fournit un modèle de sentiment distinct, qui permet aux utilisateurs d'utiliser un modèle de sentiment prêt à l'emploi qui donnera un sentiment global pour l'entrée. Cependant, pour un langage naturel complexe, il est assez courant d'avoir plusieurs sentiments simultanément. Par exemple, tenez compte du commentaire suivant :

docs image
La définition d'un sentiment global est difficile car deux concepts de polarité différente sont exprimés dans la même phrase. Communications Mining fournit un sentiment par libellé exactement pour résoudre ce problème. Les commentaires ci-dessus peuvent être annotés comme étant positifs à l'élection, mais négatifs par rapport à la disponibilité des actions, capturant ainsi à la fois les sentiments et ce à quoi ils se rapportent.
Bien qu'il soit possible de faire quelque chose de similaire dans AutoML en créant une version Positive et Negative de chaque étiquette, il n'y a aucun moyen d'indiquer qu'il s'agit de deux versions de la même étiquette, ce qui signifie qu'il faut annoter deux fois beaucoup de données.

Entrées identiques

Une autre remarque intéressante concerne la déduplication des entrées. En général, lors de la validation d'un modèle d'apprentissage automatique, il est essentiel de préserver une séparation rigoureuse entre les ensembles d'entraînement et de test, pour éviter les fuites de données, ce qui peut conduire à des estimations de performances trop optimisées, et donc à des échecs inattendues lors du déploiement.

AutoML dédupliquera automatiquement toutes les entrées, en avertissant l'utilisateur qu'il existe des entrées dupliquées. Bien que ce soit la bonne approche pour une API NLP à usage général, ce n'est pas le cas pour les données conversationnelles.

De nombreux e-mails envoyés en interne sont générés automatiquement, qu'il s'agisse de messages d'absentation du bureau ou de rappels de réunion. Lors de l'analyse des résultats d'une enquête, il est tout à fait possible que de nombreuses personnes répondent exactement la même chose, surtout pour des questions pointues telles que

Is there anything we could do to improve? → No.

Cela signifie que beaucoup de ces entrées dupliquées sont dûment dupliquées dans la distribution du monde réel, et qu'il est important d'évaluer les performances du modèle sur ces entrées bien connues et strictement identiques.

Expériences

​Maintenant​que nous avons parlé des différences de niveau supérieur, nous souhaitons évaluer les performances brutes des deux produits pour voir lequel nécessiterait moins d'efforts pour déployer un modèle prêt pour la production.

Configuration

Nous visons à ce que la comparaison soit aussi juste que possible. Nous évaluons les performances de trois ensembles de données représentatifs de trois principaux cas d’utilisation du NLP d’entreprise

 

Taille

Étiquetages attribués

Libellés uniques

E-mails de la banque d'investissement

1368

4493

59

E-mails de souscription d'assurance

3964

5188

25

Commentaires du commerce en ligne

3510

7507

54

Nous avons traité les données comme suit

  • Format de données. Pour Communications Mining, nous utilisons la prise en charge des e-mails intégrés. AutoML attend un blob de texte. Par conséquent, pour représenter la structure de l'e-mail, nous avons utilisé le format Subject: <SUBJECT-TEXT> Body: <BODY-TEXT>
  • Suppression de signatures. Tous les corps des e-mails ont été prétraités pour supprimer leurs signatures avant d'être transmis au modèle d'apprentissage automatique.

Étant donné que les tâches d'annotation AutoML ne s'appliquent pas aux données internes confidentielles, nous utilisons des libellés annotés par les PME avec la plate-forme d'apprentissage actif Communications Mining pour créer les données supervisées que nous utiliserons pour entraîner les deux modèles.

Remarque :

Nous avons choisi ces jeux de données en raison de leur caractère représentatif et ne les avons pas modifiés une fois que nous avons vu les résultats initiaux, afin d’éviter tout biais d’échantillon ou de sélection.

Nous gardons un ensemble de test fixe que nous utilisons pour évaluer les deux plates-formes et les formons toutes les deux avec exactement les mêmes données d'entraînement. AutoML oblige les utilisateurs à spécifier manuellement les répartitions d'entraînement et de validation. Nous échantillonnons donc au hasard 10 % des données d'entraînement à utiliser pour la validation, comme suggéré par la documentation AutoML.

Métriques

La page de validation de Communications Mining aide les utilisateurs à comprendre les performances de leurs modèles. La principale mesure que nous utilisons est la précision moyenne moyenne. AutoML rapporte la précision moyenne pour toutes les prédictions de libellés, ainsi que la précision et le rappel à un seuil donné.

La précision moyenne prend mieux en compte les performances de tous les libellés, car il s'agit d'une moyenne non pondérée des performances des libellés individuels, tandis que Précision moyenne, Précision et Rappel capturent le comportement global du modèle sur toutes les entrées et tous les libellés, et donc mieux représentent les événements courants apparaissant dans les libellés.

Nous comparons les mesures suivantes :

  • Précision moyenne moyenne La mesure utilisée par Communications Mining, qui correspond à la macro-précision basée sur les libellés

  • Précision moyenne ( Average Précision ) La métrique utilisée par AutoML, qui est la précision basée sur la micro-moyenne pour toutes les prédictions

  • La précision et le rappel du score F1 ne sont pas significatifs, car l’un peut être échangé pour l’autre. Nous rapportons le score F1, qui représente les performances d'une tâche où la précision et le rappel sont tout aussi importants.

Les lecteurs intéressés peuvent trouver les courbes Précision-Rappel complètes dans la section concernée.

Résultats
docs image
docs image
docs image
Remarque :

Communications Mining dépasse AutoML pour chaque métrique sur tous les ensembles de données de référence, en moyenne de 5 à 10 points. C'est une indication claire qu'un outil spécialisé dans l'apprentissage à partir des communications est plus adapté aux automatisations et aux analyses d'entreprise hautes performances.

Étant donné qu’AutoML est conçu pour gérer des tâches NLP à usage général, il doit être suffisamment flexible pour s’adapter à n’importe quelle tâche basée sur le texte, au détriment d’une tâche spécifique. De plus, comme de nombreuses solutions prêtes à l’emploi qui exploitent l’apprentissage par transfert, la connaissance initiale d’AutoML est davantage axée sur le langage de tous les jours couramment utilisé dans les réseaux sociaux et les articles de presse. Cela signifie que la quantité de données nécessaires pour l'adapter à la communication d'entreprise est beaucoup plus importante qu'un modèle dont l'objectif principal est de traiter la communication d'entreprise, comme Communications Mining, qui peut tirer parti de l'apprentissage par transfert à partir de connaissances initiales beaucoup plus similaires. En termes d'impact réel, cela signifie que le temps passé à annoter pour les SME est plus intéressant, plus de temps avant de tirer de la valeur du modèle et que le coût d'adoption est plus élevé.

Régime de bas niveau de données

En plus de l'ensemble de données complet, nous souhaitons également évaluer les performances de modèles entraînés avec peu de données. Étant donné que la collecte de données d'entraînement est un processus cher et long, la vitesse à laquelle un modèle s'améliore lorsqu'il contient des données est un élément important dans le choix d'une plate-forme NLP.

Remarque :

L'apprentissage avec peu de données est appelé apprentissage en quelques captures. Plus précisément, lorsque vous essayez d'apprendre à partir de K exemples pour chaque libellé, cela est généralement noté comme un apprentissage par K-shot.

Afin d'évaluer les performances de quelques prises de vue, nous créons des versions plus petites de chaque ensemble de données en échantillonnant 5 et 10 exemples de chaque libellé, et nous les notons respectivement comme des ensembles de données à 5 et 10 shot. Comme nous l'avons mentionné précédemment, Communications Mining utilise une structure de libellés hiérarchiques, ce qui signifie que nous ne pouvons pas échantillonner exactement 5 exemples pour chaque libellé, car les enfants ne peuvent pas appliquer sans leurs parents. Ainsi, nous créons ces ensembles de données en échantillonnant les libellés de feuille dans la hiérarchie, de sorte que les parents ont potentiellement plus d'exemples.

Ces échantillons sont extraits de manière aléatoire, sans biais d'apprentissage actif qui pourrait favoriser la plate-forme Communications Mining.

Étant donné qu’AutoML ne permet pas aux utilisateurs de former des modèles à moins que tous les libellés n’aient au moins 10 exemples, nous ne pouvons pas signaler les performances en 5 shots

docs image
docs image
docs image
Remarque :

Dans un mode où les données sont réduites, Communications Mining surpasse considérablement l'AutoML dans la plupart des métriques et pour toutes les tâches. Nous observons que les performances à 5 captures pour Communications Mining sont déjà concurrentes aux performances d'AutoML à 10 shot sur la plupart des métriques.

Avoir un modèle précis avec quelques points d'entraînement annotés est extrêmement puissant, car cela signifie que les humains peuvent commencer à travailler en collaboration avec le modèle beaucoup plus tôt, serrant ainsi la boucle d'apprentissage actif.

La seule mesure où AutoML a des performances plus élevées est la précision moyenne pour les performances à 10 shots pour les commentaires des clients, où AutoML dépasse Communications Mining de 1,5 point.

Étant donné qu'AutoML est un outil à usage général, il fonctionne mieux pour les données de type Prose, et les commentaires des clients ont tendance à ne pas inclure de données semi-structurées importantes ou de jargon spécifique au domaine avec lesquels un outil à usage général aurait des problèmes, ce qui pourrait être une raison pour laquelle AutoML fonctionne bien.

Temps de formation

L'entraînement d'un modèle est un processus complexe, le temps d'entraînement est donc un facteur important à prendre en compte. L'entraînement rapide du modèle signifie des cycles d'itération rapides et une boucle de rétroaction plus étroite. Cela signifie que chaque étiquette appliquée par un humain entraîne des améliorations plus rapides du modèle, ce qui réduit le temps nécessaire pour extraire de la valeur du modèle.

 

Communications Mining

AutoML

E-mails de la banque d'investissement

1m32s

4 h 4 m

Commentaires du commerce en ligne

2m45s

4 h 4 m

E-mails de souscription d'assurance

55 s

3h59m

Remarque :

Communications Mining est conçu pour l'apprentissage actif. Le temps d'entraînement est très important pour nous et nos modèles sont optimisés pour s'entraîner rapidement sans compromettre la précision.

L'entraînement d'un modèle AutoML est environ 200 fois plus lent en moyenne par rapport à Communications Mining.

Les modèles AutoML nécessitent des ordres de grandeur plus longs pour s'entraîner, ce qui les rend beaucoup moins accessibles à utiliser dans une boucle d'apprentissage actif. Étant donné que le temps d'itération est si long, le meilleur chemin pour améliorer un AutoML est susceptible d'avoir de gros lots d'annotation entre le réentraînement du modèle, qui comporte des risques d'annotation de données redondantes (fournissant plus d'exemples d'entraînement pour un concept déjà bien compris) et mauvaise l'exploration de données (ne pas savoir ce que le modèle ne sait pas rend plus difficile d'atteindre une couverture de concept supérieure).

Conclusions

Lors de la création d'une solution NLP d'entreprise, la puissance prédictive brute d'un modèle n'est qu'un seul aspect qui doit être pris en compte. Bien que nous ayons constaté que Communications Mining surpasse l'AutoML sur les tâches NLP d'entreprise courantes, les principales informations que nous avons obtenues étaient les différences fondamentales dans les approches de NLP de ces plates-formes.

  • Communications Mining est un outil adapté à l'analyse des conversations semi-structurées. Il comprend plus de composants requis pour créer un modèle à partir de zéro dans une infrastructure Agile.

  • AutoML est un outil NLP à usage général qui doit être intégré à d'autres composants pour être efficace. Il se concentre davantage sur la création de modèles avec des données annotées préexistantes, dans une infrastructure de cascade pour la création de modèles d'apprentissage automatique.

  • Les deux outils sont capables de créer des modèles de pointe hautement Compétitifs, mais Communications Mining est mieux adapté aux tâches spécifiques courantes dans l’analyse des communications d’entreprise.

À moins que les exigences exactes ne puissent être définies à l'avance, les longs temps d'entraînement des modèles AutoML sont interdits pour entraîner l'exploration de données interactive dans une boucle d'apprentissage actif, ce pour quoi Communications Mining est conçu.

L'exigence d'AutoML d'avoir 10 exemples pour chaque libellé avant d'entraîner un modèle signifie que l'on ne peut pas utiliser efficacement le modèle pour guider l'annotation dans les toutes premières étapes, ce qui est précisément la partie la plus difficile d'un projet d'apprentissage automatique.

De plus, l'écart de distribution entre les tâches auxquelles AutoML et Communications Mining s'attendent signifie que l'outil plus spécifique est capable de produire plus rapidement des modèles de qualité supérieure, en raison de l'utilisation plus ciblée de l'apprentissage par transfert.

Si cette comparaison est intéressante, que vous avez des commentaires ou des questions, ou que vous souhaitez essayer d'utiliser Communications Mining pour mieux comprendre les conversations de votre entreprise, contactez UiPath!

Courrier de précision-rappel

​Pour​plus de compréhension du comportement des modèles Communications Mining et AutoML, les métriques de niveau supérieur telles que Précision moyenne (Average Précision) ne peuvent pas fournir une image complète. Dans cette section, nous fournissons les courbes Précision-Rappel pour toutes les comparaisons, afin que les lecteurs puissent évaluer les compromis Précision/Rappel auxquels ils peuvent s'attendre compte tenu de leurs seuils de performances spécifiques.
docs image
docs image
docs image
docs image
docs image
docs image

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.