communications-mining
latest
false
Important :
Ce contenu a été traduit à l'aide d'une traduction automatique.
Guide de l'utilisateur de Communications Mining
Last updated 7 nov. 2024

FAQ sur l'entraînement de modèles

Les informations de cette page sont divisées en deux sections :
  • Entraînement général du modèle
  • Apprentissage des libellés

Entraînement général du modèle

Quel est l’objectif de l’entraînement d’un modèle ?

L'objectif de l'entraînement d'un modèle est de créer un ensemble de données d'entraînement aussi représentatif que possible de l'ensemble de données dans son ensemble, afin que la plate-forme puisse prédire avec précision et confiance les libellés et les champs généraux pertinents pour chaque message. Les libellés et les champs généraux d'un ensemble de données doivent être intrinsèquement liés aux objectifs globaux du cas d'utilisation et fournir une valeur métier significative.

Pourquoi ne puis-je rien voir dans Découvrir si je vient de télécharger des données sur la plate-forme ?

Dès que les données sont téléchargées sur la plate-forme, celle-ci commence un processus appelé apprentissage non supervisé (unsupervised learning), par lequel elle regroupe les messages dans des clusters d'intention sémantique similaire. Ce processus peut prendre jusqu'à quelques heures, selon la taille de l'ensemble de données, et les clusters apparaîtront une fois l'opération terminée.

De quelle quantité de données historiques ai-je besoin pour entraîner un modèle ?

Pour pouvoir entraîner un modèle, vous avez besoin d'un minimum de données historiques. Elles sont utilisées comme données d'entraînement pour fournir à la plate-forme les informations nécessaires pour prédire en toute confiance chacun des concepts pertinents pour votre analyse et/ou automatisation.

La recommandation pour tout cas d'utilisation est un minimum de 12 mois de données historiques, afin de capturer correctement toute saisonnalité ou anomalie dans les données (par exemple, processus de fin de mois et hautes saisons).

Dois-je enregistrer mon modèle à chaque fois que j'apporte une modification ?

Non, vous n'avez pas besoin d'enregistrer votre modèle une fois que vous avez apporté des modifications. Chaque fois que vous entraînez la plate-forme sur vos données (c'est-à-dire annotant les messages), une nouvelle version de modèle est créée pour votre ensemble de données. Les statistiques de performances des anciennes versions de modèle peuvent être consultées dans Validation.

Comment connaître les performances du modèle ?

Veuillez consulter la page Validation de la plate-forme, qui rapporte diverses mesures de performances et fournit une évaluation holistique du modèle. Cette page se met à jour après chaque événement d'entraînement et peut être utilisée pour identifier les domaines où le modèle peut avoir besoin de plus d'exemples d'entraînement ou de corrections de libellés afin d'assurer la cohérence.

Veuillez consulter la page Validation, pour des explications complètes sur les performances du modèle et comment les améliorer.

Pourquoi n'y a-t-il que 30 clusters disponibles et pouvons-nous les définir individuellement ?

Les clusters sont un moyen utile pour vous aider à créer rapidement votre taxonomie, mais les utilisateurs passeront la plupart de leur temps à s'entraîner dans Explorer plutôt que dans Découvrir.

Si les utilisateurs passent trop de temps à annoter via des clusters, il y a un risque de surajuster le modèle pour rechercher des messages qui ne correspondent à ces clusters que lors de la réalisation des prédictions. Plus les exemples sont divers pour chaque étiquette, plus le modèle trouvera les différentes manières d'exprimer la même intention ou concept. C'est l'une des principales raisons pour lesquelles nous n'affichons que 30 clusters à la fois.

Une fois que suffisamment d'entraînements sont terminés ou qu'un volume important de données a été ajouté à la plate-forme (voir ici), Cependant, Découvrir effectue un réentraînement. Lors du réentraînement, il prend en compte l'entraînement existant à ce jour et essaiera de présenter de nouveaux clusters qui ne sont pas bien couverts par la taxonomie actuelle.

Pour plus d’informations sur Découvrir, voir ici.

Combien de messages y a-t-il dans chaque cluster ?

Il y a 30 clusters au total, chacun contenant 12 messages. Dans la plate-forme, vous pouvez filtrer le nombre de messages affichés sur la page par incréments entre 6 et 12 par page. Nous vous recommandons d'en annoter 6 à la fois pour vous assurer que vous réduisez le risque d'annoter partiellement les messages.

Que signifient la précision et le rappel ?

La précision et le rappel sont des métriques utilisées pour mesurer les performances d'un modèle d'apprentissage automatique. Une description détaillée de chacune de ces options est disponible dans la section Utilisation de la validation ( Using Validation ) de nos guides pratiques.

Puis-je revenir à une version antérieure de mon modèle ?

Vous pouvez accéder à la vue d’ensemble de validation des modèles précédents en pointant sur « Version du modèle » (Model Version) dans le coin supérieur gauche de la page Validation. Cela peut être utile pour suivre et comparer les progrès pendant l'entraînement de votre modèle.

Si vous devez restaurer votre modèle vers une version précédente épinglée, reportez-vous ici pour plus de détails.

Apprentissage des libellés

Puis-je modifier le nom d'un libellé ultérieurement ?

Oui, c'est très facile à faire. Vous pouvez accéder aux paramètres de chaque libellé et le renommer à tout moment. Vous pouvez voir comment procéder ici.

Comment connaître le nombre de messages que j’ai annotés ?

Les informations sur votre ensemble de données, y compris le nombre de messages annotés, s'affichent sur la page Paramètres des ensembles de données (Datasets Settings). Pour voir comment y accéder, cliquez ici.

L'un de mes libellés fonctionne mal, que puis-je faire pour l'améliorer ?

Si vous constatez sur la page Validation (Validation) que votre libellé fonctionne mal, il existe différentes manières d'améliorer ses performances. Voir ici pour plus de détails.

Qu’est-ce que le disque rouge à côté de mon libellé ou de mon champ général indique ? Comment puis-je m'en débarrasser ?

Les petits disques rouges à côté de chaque étiquette/champ général indiquent si d'autres exemples sont nécessaires à la plateforme afin d'estimer avec précision les performances de l'étiquette/du champ général. Les compteurs commencent à disparaître au fur et à mesure que vous fournissez plus d'exemples d'entraînement et disparaîtront complètement une fois que vous aurez atteint 25 exemples.

Après cela, la plate-forme sera en mesure d’évaluer efficacement les performances d’un libellé/champ général donné et peut renvoyer un avertissement de performances si le libellé/champ général n’est pas sain.

Dois-je éviter d'annoter des messages vides/non informatifs ?

La plate-forme est capable d'apprendre à partir de messages vides et de messages non informatifs tant qu'ils sont correctement annotés. Cependant, il convient de noter que les libellés non informatifs nécessiteront probablement un nombre important d'exemples d'entraînement, ainsi que d'être regroupés de façon approximative par concept, pour garantir de meilleures performances.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.