- Documents d’API
- CLI
- Guides d'intégration
- Intégration avec l'utilisateur du service Azure
- Intégration avec l'authentification d'application Azure
- Automatisation en temps réel
- Récupérer des données pour Tableau avec Python
- Intégration d'Elasticsearch
- Intégration EWS auto-hébergée
- Infrastructure d'automatisation UiPath
- Activités UiPath Marketplace
- Activités officielles UiPath
- Blog
- Comment les machines apprennent à comprendre les mots : guide d'intégration dans NLP
- Apprentissage basé sur des invites avec des Transformers
- Efficient Transformers II : Dilarisation des connaissances et affinement
- Transformateurs efficaces I : mécanismes d'attention
- Modélisation de l'intention hiérarchique profonde non supervisée : obtenir de la valeur sans données d'entraînement
- Correction du biais d'annotation avec Communications Mining
- Apprentissage actif : de meilleurs modèles d'ML en moins de temps
- Tout est dans les chiffres : évaluer les performances du modèle avec des métriques
- Pourquoi la validation du modèle est importante
- Comparaison de Communications Mining et de Google AutoML pour l'intelligence des données conversationnelles
Guide du développeur Communications Mining
Comparaison de Communications Mining et de Google AutoML pour l'intelligence des données conversationnelles
Lorsqu'il s'agit de tirer parti de la puissance du NLP et du ML pour automatiser les processus, obtenir de meilleures analyses et mieux comprendre les conversations d'une entreprise, la première décision est généralement d' acheter une solution ou de créer la vôtre.
Cet article compare les performances et la philosophie de conception de la plate-forme Communications Mining à l’une des solutions cloud NLP les plus performantes, AutoML de Google.
Nous espérons fournir quelques informations sur le processus d'utilisation d'un produit d'intelligence de communication d'entreprise dédié par rapport à l'utilisation d'un outil plus général, et les compromis auxquels on peut s'attendre.
Communications Mining et Google AutoML sont deux solutions qui obligent l'utilisateur à créer un ensemble de données d'entraînement annoté qui associe les libellés aux conversations. La qualité des données d'entraînement détermine la qualité des prédictions renvoyées par ce modèle entraîné.
Pour obtenir des données d'entraînement de haute qualité, il est essentiel d' appliquer des libellés représentant de manière cohérente et précise du domaine sur lequel vous souhaitez faire des prédictions.
La première différence majeure entre Communications Mining et Google AutoML réside dans la philosophie de conception autour de l'utilisation du produit.
Annotation des tâches vs apprentissage actif
Le flux AutoML consiste à créer un ensemble de données annoté hors ligne, qui est téléchargé et utilisé pour entraîner un modèle. L'annotation d'un ensemble de données est une opération coûteuse qui nécessite beaucoup de travail en amont. La façon dont les libellés sont produits est hors de portée pour AutoML, mais une solution possible consiste à sous-traiter l'annotation à des tiers. Google fournit des tâches d’annotation à cette fin, qui sont intégrées à AutoML;
Ceci est sous-optimal pour plusieurs raisons
-
L'accès à des tiers est souvent utilisé pour les conversations internes sensibles.
-
Il n’est peut-être pas souhaitable de sous-traiter l’annotation à des personnes qui ne disposent pas des informations pertinentes nécessaires pour saisir pleinement les complexités des communications d’une entreprise
-
La connaissance contextuelle du domaine est clé pour des données d'entraînement de haute qualité. Par exemple, tout le monde peut annoter des images de chat et de chien, mais moins les e-mails d'une boîte aux lettres par défaut de la banque d'investissement. Pour cela, des experts en la matière (SME) sont requis.
À Communications Mining, nous encourageons les utilisateurs à télécharger une grande quantité de données non annotées et à utiliser notre apprentissage actif pour créer l'annotation de manière interactive. Nous estimons que l'exploration et l'annotation interactives des données sont essentielles pour créer un ensemble de libellés qui capturent réellement toutes les informations et les détails intéressants qui résident dans les conversations d'une entreprise au niveau de précision approprié.
Bien sûr, si vous avez déjà un ensemble de données annoté que vous souhaitez utiliser comme point de départ, vous pouvez également utiliser notre outil CLI pour télécharger l’ensemble de données annoté.
Création de modèles de cascade et d'agilité
AutoML fournit une aide pour améliorer un modèle en surfaçant de faux positifs et de faux négatifs pour chaque libellé. Communications Mining fournit un ensemble d'avertissements et d'actions suggérées pour chaque libellé, ce qui permet aux utilisateurs de mieux comprendre les modes de défaillance de leur modèle et ainsi le moyen le plus rapide de l'améliorer.
Un autre axe selon lequel AutoML et Communications Mining diffèrent est le modèle de données qu'ils utilisent. AutoML fournit une structure très générale pour les entrées et les cibles. Communications Mining est optimisé pour les principaux canaux de communication utilisant les langages naturels.
Conversations semi-structurées
La plupart des conversations numériques se déroulent dans l'un des formats suivants :
-
Emails
-
Tickets
-
Chats
-
Appels téléphoniques
-
Commentaires/avis/enquêtes
Ce sont tous des formats semi-structurés, qui ont des informations au-delà du texte qu'ils contiennent. Un e-mail a un expéditeur et des destinataires, ainsi qu'un objet. Les chat ont des participants et des horodatages différents. Les avis peuvent avoir des métadonnées associées, comme le score.
AutoML n'a pas de moyen canonique pour représenter ces informations semi-structurées lors du téléchargement d'exemples d'apprentissage, il traite uniquement avec du texte. Communications Mining fournit une prise en charge de première classe de la structure des e-mails, ainsi que des champs de métadonnées arbitraires via les propriétés utilisateur.
Comme le montre l’exemple ci-dessous, les e-mails d’entreprise contiennent souvent de grandes signatures et/ou des clauses de non-responsabilité qui peuvent être beaucoup plus longues que le contenu réel de l’e-mail. AutoML n'a pas de logique de suppression de signatures, c'est pourquoi nous avons utilisé Communications Mining pour analyser les signatures avant de les transmettre à AutoML. Alors que les algorithmes d’apprentissage automatique modernes peuvent assez bien gérer le bruit dû aux signatures, il n’en va pas de même pour les labellisations humaines. Lorsque vous essayez d’analyser un e-mail pour détecter tous les libellés qui s’appliquent et qui détectent des thèmes intéressants, la charge Cognitive d’avoir à ignorer les longues signatures n’est pas invalide et peut entraîner une mauvaise qualité de l’étiquette.
Concepts associés
Delivery
> Speed Delivery
> Cost Delivery
> Tracking
. Pour des informations plus précises, d'autres répartitions sont possibles telles que Delivery
> Cost
> Free Shipping Delivery
> Cost
> Taxes & Customs
.
Delivery
de niveau supérieur sans avoir besoin de faire explicitement quoi que ce soit sur les libellés enfants.
AutoML ne prend pas en charge les libellés structurés, mais suppose une opérabilité complète entre les libellés. Il s'agit du modèle de données le plus général pour les libellés NLP, mais nous estimons qu'il n'a pas la spécificité requise pour fonctionner de manière optimale avec des conversations semi-structurées.
Outre la structure de l’étiquette, le sentiment d’un morceau de texte est souvent intéressant pour les commentaires ou l’analyse des enquêtes. Google fournit un modèle de sentiment distinct, qui permet aux utilisateurs d'utiliser un modèle de sentiment prêt à l'emploi qui donnera un sentiment global pour l'entrée. Cependant, pour un langage naturel complexe, il est assez courant d'avoir plusieurs sentiments simultanément. Par exemple, tenez compte du commentaire suivant :
Positive
et Negative
de chaque étiquette, il n'y a aucun moyen d'indiquer qu'il s'agit de deux versions de la même étiquette, ce qui signifie qu'il faut annoter deux fois beaucoup de données.
Entrées identiques
Une autre remarque intéressante concerne la déduplication des entrées. En général, lors de la validation d'un modèle d'apprentissage automatique, il est essentiel de préserver une séparation rigoureuse entre les ensembles d'entraînement et de test, pour éviter les fuites de données, ce qui peut conduire à des estimations de performances trop optimisées, et donc à des échecs inattendues lors du déploiement.
AutoML dédupliquera automatiquement toutes les entrées, en avertissant l'utilisateur qu'il existe des entrées dupliquées. Bien que ce soit la bonne approche pour une API NLP à usage général, ce n'est pas le cas pour les données conversationnelles.
De nombreux e-mails envoyés en interne sont générés automatiquement, qu'il s'agisse de messages d'absentation du bureau ou de rappels de réunion. Lors de l'analyse des résultats d'une enquête, il est tout à fait possible que de nombreuses personnes répondent exactement la même chose, surtout pour des questions pointues telles que
Is there anything we could do to improve? → No.
Cela signifie que beaucoup de ces entrées dupliquées sont dûment dupliquées dans la distribution du monde réel, et qu'il est important d'évaluer les performances du modèle sur ces entrées bien connues et strictement identiques.
Maintenantque nous avons parlé des différences de niveau supérieur, nous souhaitons évaluer les performances brutes des deux produits pour voir lequel nécessiterait moins d'efforts pour déployer un modèle prêt pour la production.
Configuration
Nous visons à ce que la comparaison soit aussi juste que possible. Nous évaluons les performances de trois ensembles de données représentatifs de trois principaux cas d’utilisation du NLP d’entreprise
Taille |
Étiquetages attribués |
Libellés uniques | |
---|---|---|---|
E-mails de la banque d'investissement |
1368 |
4493 |
59 |
E-mails de souscription d'assurance |
3964 |
5188 |
25 |
Commentaires du commerce en ligne |
3510 |
7507 |
54 |
Nous avons traité les données comme suit
-
Format de données. Pour Communications Mining, nous utilisons la prise en charge des e-mails intégrés. AutoML attend un blob de texte. Par conséquent, pour représenter la structure de l'e-mail, nous avons utilisé le format
Subject: <SUBJECT-TEXT> Body: <BODY-TEXT>
-
Suppression de signatures. Tous les corps des e-mails ont été prétraités pour supprimer leurs signatures avant d'être transmis au modèle d'apprentissage automatique.
Étant donné que les tâches d'annotation AutoML ne s'appliquent pas aux données internes confidentielles, nous utilisons des libellés annotés par les PME avec la plate-forme d'apprentissage actif Communications Mining pour créer les données supervisées que nous utiliserons pour entraîner les deux modèles.
Nous avons choisi ces jeux de données en raison de leur caractère représentatif et ne les avons pas modifiés une fois que nous avons vu les résultats initiaux, afin d’éviter tout biais d’échantillon ou de sélection.
Nous gardons un ensemble de test fixe que nous utilisons pour évaluer les deux plates-formes et les formons toutes les deux avec exactement les mêmes données d'entraînement. AutoML oblige les utilisateurs à spécifier manuellement les répartitions d'entraînement et de validation. Nous échantillonnons donc au hasard 10 % des données d'entraînement à utiliser pour la validation, comme suggéré par la documentation AutoML.
Métriques
La page de validation de Communications Mining aide les utilisateurs à comprendre les performances de leurs modèles. La principale mesure que nous utilisons est la précision moyenne moyenne. AutoML rapporte la précision moyenne pour toutes les prédictions de libellés, ainsi que la précision et le rappel à un seuil donné.
La précision moyenne prend mieux en compte les performances de tous les libellés, car il s'agit d'une moyenne non pondérée des performances des libellés individuels, tandis que Précision moyenne, Précision et Rappel capturent le comportement global du modèle sur toutes les entrées et tous les libellés, et donc mieux représentent les événements courants apparaissant dans les libellés.
Nous comparons les mesures suivantes :
-
Précision moyenne moyenne La mesure utilisée par Communications Mining, qui correspond à la macro-précision basée sur les libellés
-
Précision moyenne ( Average Précision ) La métrique utilisée par AutoML, qui est la précision basée sur la micro-moyenne pour toutes les prédictions
-
La précision et le rappel du score F1 ne sont pas significatifs, car l’un peut être échangé pour l’autre. Nous rapportons le score F1, qui représente les performances d'une tâche où la précision et le rappel sont tout aussi importants.
Les lecteurs intéressés peuvent trouver les courbes Précision-Rappel complètes dans la section concernée.
Communications Mining dépasse AutoML pour chaque métrique sur tous les ensembles de données de référence, en moyenne de 5 à 10 points. C'est une indication claire qu'un outil spécialisé dans l'apprentissage à partir des communications est plus adapté aux automatisations et aux analyses d'entreprise hautes performances.
Étant donné qu’AutoML est conçu pour gérer des tâches NLP à usage général, il doit être suffisamment flexible pour s’adapter à n’importe quelle tâche basée sur le texte, au détriment d’une tâche spécifique. De plus, comme de nombreuses solutions prêtes à l’emploi qui exploitent l’apprentissage par transfert, la connaissance initiale d’AutoML est davantage axée sur le langage de tous les jours couramment utilisé dans les réseaux sociaux et les articles de presse. Cela signifie que la quantité de données nécessaires pour l'adapter à la communication d'entreprise est beaucoup plus importante qu'un modèle dont l'objectif principal est de traiter la communication d'entreprise, comme Communications Mining, qui peut tirer parti de l'apprentissage par transfert à partir de connaissances initiales beaucoup plus similaires. En termes d'impact réel, cela signifie que le temps passé à annoter pour les SME est plus intéressant, plus de temps avant de tirer de la valeur du modèle et que le coût d'adoption est plus élevé.
Régime de bas niveau de données
En plus de l'ensemble de données complet, nous souhaitons également évaluer les performances de modèles entraînés avec peu de données. Étant donné que la collecte de données d'entraînement est un processus cher et long, la vitesse à laquelle un modèle s'améliore lorsqu'il contient des données est un élément important dans le choix d'une plate-forme NLP.
L'apprentissage avec peu de données est appelé apprentissage en quelques captures. Plus précisément, lorsque vous essayez d'apprendre à partir de K exemples pour chaque libellé, cela est généralement noté comme un apprentissage par K-shot.
Afin d'évaluer les performances de quelques prises de vue, nous créons des versions plus petites de chaque ensemble de données en échantillonnant 5 et 10 exemples de chaque libellé, et nous les notons respectivement comme des ensembles de données à 5 et 10 shot. Comme nous l'avons mentionné précédemment, Communications Mining utilise une structure de libellés hiérarchiques, ce qui signifie que nous ne pouvons pas échantillonner exactement 5 exemples pour chaque libellé, car les enfants ne peuvent pas appliquer sans leurs parents. Ainsi, nous créons ces ensembles de données en échantillonnant les libellés de feuille dans la hiérarchie, de sorte que les parents ont potentiellement plus d'exemples.
Ces échantillons sont extraits de manière aléatoire, sans biais d'apprentissage actif qui pourrait favoriser la plate-forme Communications Mining.
Étant donné qu’AutoML ne permet pas aux utilisateurs de former des modèles à moins que tous les libellés n’aient au moins 10 exemples, nous ne pouvons pas signaler les performances en 5 shots
Dans un mode où les données sont réduites, Communications Mining surpasse considérablement l'AutoML dans la plupart des métriques et pour toutes les tâches. Nous observons que les performances à 5 captures pour Communications Mining sont déjà concurrentes aux performances d'AutoML à 10 shot sur la plupart des métriques.
Avoir un modèle précis avec quelques points d'entraînement annotés est extrêmement puissant, car cela signifie que les humains peuvent commencer à travailler en collaboration avec le modèle beaucoup plus tôt, serrant ainsi la boucle d'apprentissage actif.
La seule mesure où AutoML a des performances plus élevées est la précision moyenne pour les performances à 10 shots pour les commentaires des clients, où AutoML dépasse Communications Mining de 1,5 point.
Étant donné qu'AutoML est un outil à usage général, il fonctionne mieux pour les données de type Prose, et les commentaires des clients ont tendance à ne pas inclure de données semi-structurées importantes ou de jargon spécifique au domaine avec lesquels un outil à usage général aurait des problèmes, ce qui pourrait être une raison pour laquelle AutoML fonctionne bien.
Temps de formation
L'entraînement d'un modèle est un processus complexe, le temps d'entraînement est donc un facteur important à prendre en compte. L'entraînement rapide du modèle signifie des cycles d'itération rapides et une boucle de rétroaction plus étroite. Cela signifie que chaque étiquette appliquée par un humain entraîne des améliorations plus rapides du modèle, ce qui réduit le temps nécessaire pour extraire de la valeur du modèle.
Communications Mining |
AutoML | |
---|---|---|
E-mails de la banque d'investissement |
1m32s |
4 h 4 m |
Commentaires du commerce en ligne |
2m45s |
4 h 4 m |
E-mails de souscription d'assurance |
55 s |
3h59m |
Communications Mining est conçu pour l'apprentissage actif. Le temps d'entraînement est très important pour nous et nos modèles sont optimisés pour s'entraîner rapidement sans compromettre la précision.
L'entraînement d'un modèle AutoML est environ 200 fois plus lent en moyenne par rapport à Communications Mining.
Les modèles AutoML nécessitent des ordres de grandeur plus longs pour s'entraîner, ce qui les rend beaucoup moins accessibles à utiliser dans une boucle d'apprentissage actif. Étant donné que le temps d'itération est si long, le meilleur chemin pour améliorer un AutoML est susceptible d'avoir de gros lots d'annotation entre le réentraînement du modèle, qui comporte des risques d'annotation de données redondantes (fournissant plus d'exemples d'entraînement pour un concept déjà bien compris) et mauvaise l'exploration de données (ne pas savoir ce que le modèle ne sait pas rend plus difficile d'atteindre une couverture de concept supérieure).
Lors de la création d'une solution NLP d'entreprise, la puissance prédictive brute d'un modèle n'est qu'un seul aspect qui doit être pris en compte. Bien que nous ayons constaté que Communications Mining surpasse l'AutoML sur les tâches NLP d'entreprise courantes, les principales informations que nous avons obtenues étaient les différences fondamentales dans les approches de NLP de ces plates-formes.
-
Communications Mining est un outil adapté à l'analyse des conversations semi-structurées. Il comprend plus de composants requis pour créer un modèle à partir de zéro dans une infrastructure Agile.
-
AutoML est un outil NLP à usage général qui doit être intégré à d'autres composants pour être efficace. Il se concentre davantage sur la création de modèles avec des données annotées préexistantes, dans une infrastructure de cascade pour la création de modèles d'apprentissage automatique.
-
Les deux outils sont capables de créer des modèles de pointe hautement Compétitifs, mais Communications Mining est mieux adapté aux tâches spécifiques courantes dans l’analyse des communications d’entreprise.
À moins que les exigences exactes ne puissent être définies à l'avance, les longs temps d'entraînement des modèles AutoML sont interdits pour entraîner l'exploration de données interactive dans une boucle d'apprentissage actif, ce pour quoi Communications Mining est conçu.
L'exigence d'AutoML d'avoir 10 exemples pour chaque libellé avant d'entraîner un modèle signifie que l'on ne peut pas utiliser efficacement le modèle pour guider l'annotation dans les toutes premières étapes, ce qui est précisément la partie la plus difficile d'un projet d'apprentissage automatique.
De plus, l'écart de distribution entre les tâches auxquelles AutoML et Communications Mining s'attendent signifie que l'outil plus spécifique est capable de produire plus rapidement des modèles de qualité supérieure, en raison de l'utilisation plus ciblée de l'apprentissage par transfert.
Si cette comparaison est intéressante, que vous avez des commentaires ou des questions, ou que vous souhaitez essayer d'utiliser Communications Mining pour mieux comprendre les conversations de votre entreprise, contactez UiPath!