document-understanding
2023.10
false
UiPath logo, featuring letters U and I in white
Guide de l'utilisateur de Document Understanding
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 11 nov. 2024

Diagnostic du jeu de données

L’entraînement d’un nouveau modèle à partir de zéro peut parfois être une tâche très exigeante.

La fonctionnalité Dataset Diagnostics vous aide à créer des ensembles de données efficaces en fournissant des commentaires et des conseils sur les étapes nécessaires pour obtenir une bonne précision pour le modèle entraîné.

Situé dans la barre de gestion du gestionnaire de documents, Dataset Diagnostics fournit des conseils visuels et écrits tout au long du processus d’apprentissage d’un nouveau modèle.

Il existe trois niveaux d’état de l’ensemble de données affichés dans la barre de gestion :

  • Rouge : plus de données d’entraînement libellées requises.
  • Orange : plus de données d’entraînement libellées recommandées.
  • Vert : le niveau requis de données d’apprentissage labellisées est atteint.

Si aucun champ n’est créé dans la session, le niveau d’état de l’ensemble de données est grisé.

Plus d’informations sur chaque statut sont disponibles dans le menu contextuel Dataset Diagnostics. Cliquez sur le bouton Dataset Diagnostics pour l’ouvrir.



Diagnostic du jeu de données

Dataset tab

Fournit des informations sur les documents utilisés pour l'entraînement du modèle, le nombre total de pages importées et le nombre total de pages labellisées.

La séparation sur la barre d'état des couleurs est déterminée par le nombre recommandé de pages labellisées nécessaires à l'apprentissage du modèle et par l'état réel de votre ensemble de données, y compris les données labellisées et non labellisées. Le survol de chaque couleur de la barre d’état fournit des informations supplémentaires, dans une info-bulle, sur chaque état.

Les nombres disponibles dans l’onglet Ensemble de données sont calculés en fonction du nombre de champs standard et de champs d’élément de la session d’entraînement.

  • Rouge : l’ensemble de données nécessite davantage de données labellisées pour l’apprentissage du modèle.
  • Orange : pour un niveau de précision accru sur le modèle entraîné, davantage de données labellisées sont recommandées. Vous pouvez choisir d’aller plus loin avec les données réelles, mais le niveau de précision n’est pas aussi élevé que souhaité.
  • Vert : les données labellisées sont suffisantes pour que l’ensemble de données soit entraîné en conséquence et reçoive des informations précises.

Fields tab

Fournit des informations sur chaque champ étiqueté, plus précisément le nombre total de pages d’entraînement sur lesquelles l’étiquette est étiquetée, le nombre total de documents évalués avec le champ étiqueté et son statut pour l’ensemble d’entraînement actuel.

docs image
  • Champ (Field) : le nom du champ libellé.
  • Pages d’entraînement : le nombre de pages de l’ensemble Entraînement+Validation sur lesquelles le champ est libellé.
  • Documents d’évaluation (Evaluation Documents) : le nombre de documents de l’ensemble d’évaluation sur lesquels ce champ est libellé.
  • Statut (Status) - le statut de chaque champ, marqué par trois options : Rouge, Orange et Vert.

Voici toutes les options disponibles pour la barre de Statut (Status) :

  • Rouge : les données sur le champ sont insuffisantes, d’autres libellés étant nécessaires.
    docs image
  • Orange : davantage de pages doivent être labellisées pour que les résultats soient pertinents.
    docs image
  • Vert : le nombre de pages labellisées est suffisant pour que les résultats soient pertinents.
    docs image

Les boutons Actualiser (Refresh) et Fermer (Close) s’appliquent aux deux onglets, ce qui signifie que si le bouton Actualiser (Refresh) est cliqué dans l’onglet Ensemble de données (Dataset), l’onglet Fichiers (Files) est également actualisé.

  • Actualiser (Refresh) : utilisez l’option d’actualisation après que des modifications ont été apportées à l’ensemble de données, que ce soit sur le nombre total de pages ou le nombre de pages labellisées. Le menu contextuel s’actualise automatiquement toutes les quelques minutes et cela s’effectue sur les deux onglets simultanément. Utilisez cette fonction lorsqu’une actualisation est nécessaire en dehors de la fenêtre automatique.
  • Fermer (Close) : une fois toutes les informations nécessaires rassemblées, fermez le menu en cliquant sur le bouton Fermer (Close). L’ensemble du menu contextuel est fermé, quel que soit l’onglet à partir duquel le bouton a été cliqué.

Onglet Calculatrice

L'onglet Calculatrice (Calculator) fournit les mêmes informations que celles que vous avez déjà ajoutées lors de la création d'un nouveau type de document.
docs image
Vous pouvez utiliser le calculateur d'ensemble de données pour modifier des parties des informations ajoutées initialement, lors de la création du type de document.

Vous pouvez modifier les champs suivants à l'aide du calculateur d'ensemble de données :

  • Type de document prêt à l’emploi
  • Nombre de langues
  • Nombre de mises en page

Les champs suivants de l'onglet Calculatrice (Calculator) sont en lecture seule et leurs valeurs sont déterminées par l'intersection du type de document prêt à l'emploi utilisé et des champs du schéma actuel :

  • Champs réguliers prêts à l’emploi
  • Champs de colonne prêts à l’emploi
  • Champs de classification prêts à l'emploi

La modification de l'un des champs mentionnés a un impact sur la taille recommandée de l'ensemble de données. L'onglet Ensemble de données (Dataset) de la fenêtre contextuelle actuellement ouverte est mis à jour et passe au statut vert/jaune/rouge en fonction de la nouvelle taille recommandée. Une fois les modifications enregistrées, l'indicateur global de Diagnostic de l'ensemble de données (Dataset Diagnosis) prend en compte le nouvel état de santé de l'onglet Ensemble de données (Dataset).

Supposons que, lors de la création initiale du type de document, vous ayez sélectionné Factures (Invoices) dans le champ Type de document prêt à l'emploi (Out-of-the-box document type). Si vous changez votre choix initial pour quelque chose d'autre, les reçus par exemple, alors l'ensemble de données assimile les informations pour les deux types de documents et affiche les informations qui recoupent les deux types (factures et reçus) que vous avez sélectionnés.

Si certains champs ne sont présents que dans l'un des modèles, ils apparaissent dans les champs réguliers personnalisés ou les champs de colonnes personnalisés, car ces modifications s'appliquent aux champs réguliers et aux champs de classification.

  • Diagnostic du jeu de données
  • Dataset tab
  • Fields tab
  • Onglet Calculatrice

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.