Guide du développeur Communications Mining

Dernière mise à jour 20 déc. 2024

Pourquoi la validation du modèle est importante

Communications Mining est une plate-forme d'intelligence de données conversationnelle qui permet aux utilisateurs de découvrir, de mesurer et d'automatiser les processus masqués dans leurs canaux de communication.

Les canaux typiques incluent les e-mails, les tickets, les chat et les appels. Les conversations dans ces domaines sont complexes et complexes. Par conséquent, les modèles d'apprentissage automatique génériques fonctionnent mal. Au lieu de cela, Communications Mining permet à chacun de créer des modèles personnalisés avec peu d'efforts. Aucune connaissance technique requise.

Cette approche est extrêmement efficace. Les modèles peuvent apprendre des modèles complexes et faire des prédictions sur des données invisibles, tout comme les humains. Les modèles d'apprentissage automatique ont même dépassé les humains sur certaines tâches en langage naturel.

Mais comme les humains, les modèles d'apprentissage automatique peuvent également faire des erreurs. L'estimation de la fréquence à laquelle un modèle se trompera est cruciale pour toute application réelle de l'apprentissage automatique. Il est tout aussi important de présenter cela de manière intuitive et de mettre en évidence les meilleures actions pour améliorer un modèle. Communications Mining utilise la validation de modèle pour accomplir toutes ces tâches.

Comment valider un modèle

Pendantla construction du modèle, les utilisateurs créent des libellés pour les sujets qui les intéressent et balisent les exemples avec ceux qui s'appliquent. La plate-forme entraîne ensuite un modèle d'apprentissage automatique pour prédire les bons libellés pour ces exemples.

Pour valider ce modèle, nous comparons ses prédictions aux annotations humaines et recherchons les erreurs. Il est difficile de comparer des prédictions à la main pour de nombreux exemples. À la place, nous calculons un score de validation qui résume le fonctionnement d'un modèle. Pour ce faire, nous avons besoin de deux éléments pour un modèle entraîné : des annotations et un score.

Annotations

Pour vérifier si les prédictions sont correctes, nous devons connaître les bonnes annotations pour chaque exemple. En d'autres termes, nous avons besoin de points de données annotés par les utilisateurs.

Nous utilisons déjà des annotations pour entraîner le modèle et nous avons pu les réutiliser lors de la validation. Cependant, comme un humain qui prend un test, les modèles d'apprentissage automatique fonctionneront mieux sur les exemples qu'ils ont « aperçus » auparavant.

Si nous évaluons un modèle à l'aide des données sur lesquelles il a été entraîné, nous pouvons surestimer la qualité du modèle. Cela donne une image trompeur du fonctionnement de notre modèle (appelé sur-ajustement). Pour cette raison, nous utilisons différents points de données pour entraîner et valider les modèles.

L'approche standard consiste à diviser de manière aléatoire l'ensemble d'annotations en deux parties inégales

Ensemble d'entraînement. L’ensemble d’exemples utilisés pour entraîner le modèle. Il s'agit normalement d'une fraction plus importante, disons 80 % du total des données annotées
Ensemble de tests. La fraction restante (20 %) des exemples utilisés pour mesurer les performances du modèle.

Astuce :

Dans la documentation sur l'apprentissage automatique, vous avez peut-être vu les données divisées en trois sections : entraîner, valider et tester. L’ensemble de validation est utilisé pour ajuster le modèle et l’ensemble de tests est évalué une fois avec le modèle final pour mesurer les performances. Chez Communications Mining, nous utilisons la validation croisée k-folder sur l'ensemble d'entraînement pour ajuster le modèle, et nos scores de « validation » sont calculés sur l'ensemble de tests avec le modèle final. Cela les rend équivalents aux performances de test dans la documentation ML.

Comme il provient de la même source, l'ensemble de test est similaire à l'ensemble d'apprentissage. Lorsque nous vérifions les performances sur l'ensemble de tests, nous simulons le modèle voir de nouveaux e-mails, mais nous pouvons effectuer une comparaison avec les vrais libellés pour avoir une idée de la qualité du modèle.

Score

Pour résumer les performances du modèle sous forme de nombres, nous avons besoin d'une fonction de scoring. Cette fonction compare les prédictions d'un modèle aux annotations humaines, puis génère un nombre.

La sélection d'une fonction de scoring peut être un processus difficile. La fonction doit correspondre à notre idée d'un bon modèle, et nous devons tenir compte des erreurs courantes qui peuvent rendre les scores inexacts.

À Communications Mining, nous utilisons la Précision moyenne (Medium Average Average) pour notre fonction de scoring. Il s'agit d'un moyen robuste de mesurer les performances du modèle dans plusieurs libellés et cas d'utilisation. Si vous souhaitez en savoir plus, lisez notre article de blog sur les métriques.

Validation avec Communications Mining

Avec ces deux composants, la validation est simple. Tout ce que nous avons à faire est d’obtenir les prédictions du modèle pour l’ensemble de tests, puis d’utiliser notre score pour mesurer les performances du modèle. Chaque fois que vous entraînez un nouveau modèle dans Communications Mining, le processus de validation s'exécute automatiquement en arrière-plan et les résultats sont signalés sur la page Validation.

En fait, chaque fois que nous entraînons un nouveau modèle, nous entraînons en fait deux modèles en arrière-plan

Modèle de validation. Il est entraîné sur l'ensemble d'entraînement et testé sur l'ensemble de tests pour mesurer les performances.
Modèle de production. Ceci est entraîné sur tous les exemples annotés (l'ensemble d'entraînement ET l'ensemble de test) et est utilisé pour faire des prédictions sur les données en direct. Ce modèle peut être différent du modèle de validation car il est entraîné sur plus de données, mais les deux modèles partagent de nombreux exemples d'entraînement. Les différences seront donc mineures. Par conséquent, les performances du modèle de validation sont une bonne estimation des performances du modèle de production.

Avec cette approche, le modèle utilisé pour les applications en aval a vu autant de données que possible.

Le modèle de validation est entraîné sur l'ensemble de train et testé sur l'ensemble de test, mais le modèle de production est entraîné sur toutes les données annotées docs image

Pourquoi vous devriez vous soucier de la validation

La validation est un élément essentiel du développement de modèles d'apprentissage automatique efficaces et offre de nombreux avantages aux utilisateurs. Si vous n'êtes pas sûr, voici trois raisons clés pour lesquelles vous devez vous en préoccuper.

Inconnus connus

La validation vous indique les performances de votre modèle, mais met également en évidence les situations où votre modèle peut rencontrer des difficultés. Ces situations peuvent apparaître pour n'importe quel nombre de raisons ; des tendances changeantes dans les données en direct aux annotations incohérentes entre les utilisateurs et les équipes. Il est important que la validation du modèle soit interpréter de façon à ce que vous connaissiez les problèmes au fur et à mesure et puissiez les résoudre rapidement.

La validation vous permet d'inspecter les points de données sur lesquels votre modèle n'est pas sûr. Vous pouvez ensuite améliorer votre modèle dans ce domaine ou ajouter de la robusteté à n’importe quel processus en aval. Cela signifie que vous pouvez être sûr que votre modèle fait exactement ce que vous voulez qu'il fasse, et qu'il n'y ait pas de mauvaise surprise.

Sur la page de validation, les utilisateurs peuvent inspecter le modèle et calibrer les processus en aval docs image

Aucune expérience requise

L'entraînement de modèles comporte de nombreux risques qui peuvent souvent être difficiles à diagnostiquer. Grâce à notre processus de validation, vous n’avez pas besoin d’être un scientifique des données pour créer de bons modèles.

Lorsque nous validons un modèle, nous ne renvoyons pas seulement un score unique. À la place, nous calculons une note de modèle. Cela inclut le score de validation du modèle ainsi que d'autres facteurs, tels que les modèles dans les données non examinées et l'alignement dans les exemples annotés.

Les notes de modèle donnent des commentaires détaillés sur les performances et des instructions claires sur la façon de les améliorer. Les utilisateurs peuvent se concentrer sur leurs connaissances du domaine pour résoudre des problèmes sans collaborer avec des équipes de développement ou des experts en IA. Communications Mining vous guidera à chaque étape du développement d'un modèle.

Les notes de modèle donnent des informations détaillées sur les performances et les actions recommandées pour améliorer un modèle docs image

Commentaires plus rapides, meilleurs modèles

La plupart des modèles d'apprentissage automatique sont mis à jour rarement et validés une fois avant le déploiement. À Communications Mining, nous adoptons une approche différente.

Au lieu d'attendre longtemps entre les mises à jour, nous formons et validons en continu de nouveaux modèles. Cela signifie que le modèle est toujours applicable à l'état actuel des données et que les résultats de la validation sont à jour.

Les commentaires rapides minimisent le temps d'itération du modèle. Toute baisse des performances peut être corrigée aussi rapidement que possible et les utilisateurs ne perdent jamais de temps à examiner les commentaires obsolètes. Le processus de validation agile de Communications Mining permet aux utilisateurs de créer des modèles de haute qualité en moins de temps.

Résumé

La validationest utilisée pour marquer les modèles et garantir de bonnes performances sur les données invisibles.
Les modèles sont marqués sur des données invisibles pour estimer avec précision leurs performances et éviter tout ajustement.
Nous utilisons les notations de modèle pour donner des commentaires détaillés afin que vous puissiez rapidement résoudre les problèmes et être sûr que votre modèle fait exactement ce qu'il devrait faire.