document-understanding

2020.10

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Obsolète

Guide de l'utilisateur de Document Understanding

PRODUIT :

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Dernière mise à jour 4 févr. 2025

Création de pipelines d'évaluation et d'entraînement

Les paquets ML Document Understanding peuvent exécuter les trois types de pipelines (pipeline complet, d'entraînement et d'évaluation).

Pour la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié ; le modèle utilise des techniques avancées pour trouver un modèle performant.

Vous pouvez obtenir des informations sur un Pipeline à deux endroits : dans la vue Détails (Details) accessible depuis le menu déroulant contextuel sur le côté droit du tableau Pipelines, ou dans l'onglet ML Logs de la barre latérale gauche. La vue Détails (Details) contient un volet Sorties (Outputs) et une page Journaux. Le volet Sorties (Outputs) contiendra toujours un fichier _results.json contenant un résumé des détails du pipeline, tels que la version du package, l'ensemble de données, l'utilisation du GPU et le temps d'exécution.

Pipelines d'entraînement et de réentraînement

Il existe deux types de pipelines d'entraînement :

Sur un paquet ML de type Document Understanding
Sur un paquet ML d'un type différent, tel que les factures (Invoices), les reçus (Receipts), les bons de commande (Purchase Orders), les factures de services publics (Utility Bills), les Factures, Inde (Invoices India) ou les Factures, Australie (Invoices Australia).

L'entraînement à l'aide d'un package « Document Understanding » entraîne simplement un modèle à partir de zéro sur l'ensemble de données fourni en entrée.

Pour les cas d'utilisation avec des documents à faible diversité (formulaires), vous pouvez obtenir de bons résultats avec seulement 30 à 50 échantillons.

Pour les cas d'utilisation avec divers documents où vous n'avez besoin que de champs réguliers ("en-têtes"), vous avez besoin d'au moins 20 à 50 échantillons par champ, donc si vous devez extraire 10 champs réguliers, vous aurez besoin d'au moins 200 à 500 échantillons.

Lorsque vous devez extraire des champs de colonne (par exemple des éléments de ligne), vous avez besoin de 50 à 200 échantillons. Par conséquent, pour 5 champs de colonne, avec des mises en page claires et simples, vous pouvez obtenir de bons résultats avec 300-400 échantillons, mais pour des mises en page très complexes et diverses, cela peut en nécessiter jusqu'à 1000.

Si vous devez également couvrir plusieurs langues, vous avez besoin d'au moins 200 à 300 échantillons par langue. Ces chiffres n'ont pas besoin de s'additionner, sauf pour les langues. Ainsi, pour 10 champs d'en-tête et 5 champs de colonne, 500 échantillons peuvent suffire, mais dans certains cas, il peut en nécessiter plus de 1000.

L’entraînement à l’aide de l’un des packages décrits à l’étape 2 nécessite une entrée supplémentaire : un modèle de base. Nous appelons également cela le réentraînement parce que vous ne partez pas de zéro mais à partir d’un modèle de base. Cette approche utilise une technique appelée apprentissage par transfert (Transfer Learning) où le modèle tire parti des informations encodées dans un autre modèle préexistant. Lorsque vous vous entraînez sur les mêmes champs pour optimiser la précision uniquement, vous pouvez obtenir de bons résultats avec seulement 100 à 500 documents supplémentaires. Si vous ajoutez de nouveaux champs au modèle, vous avez besoin de 30 à 50 documents par nouveau champ pour obtenir de bons résultats. Lorsque vous choisissez la version du modèle de base à utiliser, nous vous suggérons fortement de toujours utiliser 1.0, la version pré-entraînée fournie par UiPath prête à l’emploi.

Remarque :

Les champs de classification ne sont pas réentrainés. Vous devez donc vous assurer, lorsque vous réentrainez un modèle, que l'ensemble de données que vous labellisez contient au moins 10 à 20 échantillons de chaque classe que vous souhaitez que le modèle puisse reconnaître, quelles que soient les performances du modèle pré-entraîné que vous utilisez comme modèle de base.

Peaufinage à l'aide des données de la station de validation (aperçu)

La version d'AI Fabric de septembre 2020 inclut la capacité de peaufiner les modèles de ML à l'aide de données validées par un humain à l'aide de la Station de Validation.

Étant donné que votre workflow RPA traite les documents à l'aide d'un modèle ML existant, certains documents peuvent nécessiter une validation humaine à l'aide de l'activité Station de validation (Validation Station) (disponible sur les robots surveillés ou dans le navigateur à l'aide d'Action Center Orchestrator).

Les données validées générées dans la Station de validation peuvent être exportées à l'aide de l'activité Machine Learning Extractor Trainer et peuvent être utilisées pour affiner les modèles ML dans AI Fabric.

Nous ne recommandons pas de former des modèles ML à partir de zéro (c'est-à-dire en utilisant le paquet ML DocumentUnderstanding) en utilisant les données de la Station de Validation, mais uniquement de peaufiner les modèles ML existants (y compris les modèles ML prêts à l'emploi) en utilisant les données de la Station de Validation.

Pour connaître les étapes détaillées nécessaires pour le peaufinage d'un modèle de ML, consultez la section Importer l'ensemble de données de la Station de validation de la documentation de Data Manager.

Attention : pour exécuter avec succès des pipelines d'entraînement ou complets, nous recommandons fortement au moins 25 documents et au moins 10 échantillons de chaque champ étiqueté dans votre ensemble de données. Sinon, le pipeline affichera une erreur « Échec de la création de l'ensemble de données »

Attention : au fur et à mesure que davantage de données sont labellisées, soit à l'aide du Data Manager, soit à partir de la station de validation, les meilleurs résultats sont obtenus en conservant un seul ensemble de données et en y ajoutant plus de données, et en se réentraînant toujours à partir du modèle de base fourni par UiPath, avec la version mineure 0. Il est fortement recommandé d'éviter de se réentraîner en utilisant un modèle de base que vous avez vous-même formé précédemment (version mineure 1 ou supérieure).

Entraînement sur GPU ou processeur

L'utilisation d'un GPU (AI Robot Pro) pour l'entraînement est au moins 10 fois plus rapide que l'utilisation d'un CPU (AI Robot). Veuillez noter que l'entraînement de modèles de Document Understanding sur GPU nécessite un GPU avec au moins 11 Go de RAM vidéo pour fonctionner correctement.

Les modèles de GPU doivent prendre en charge la version 418.0+ Pilotes NVIDIA et pilotes CUDA version 9.0+.

L'entraînement sur CPU est prise en charge pour les ensembles de données jusqu'à 500 images uniquement. Pour les ensembles de données plus volumineux, vous devrez effectuer l'entraînement à l'aide du GPU.

Format d'ensemble de données

Un dossier contenant l'ensemble de données exporté provenant de Data Manager. Cela comprend :

images : un dossier contenant les images de toutes les pages labellisées ;
latest : un dossier contenant des fichiers .json avec les données labellisées de chaque page ;
schema.json : un fichier contenant les champs à extraire et leurs types ;
split.csv : un fichier contenant le fractionnement pour chaque document qui sera utilisé soit pour TRAIN, soit pour VALIDATE pendant le Pipeline d'entraînement

Variables de l'environnement

ml_model.epochs : permet de personnaliser le nombre d'époques pour ou le pipeline d'entraînement ou complet (la valeur par défaut est de 150)

Artefacts

Lorsque le pipeline est un Pipeline complet ou d'évaluation, le volet Sorties (Outputs) contient également un dossier « artifacts » qui contient deux fichiers :

evaluation_metrics.txt contient les scores F1 des champs prédits. Notez que pour les éléments de ligne, seul un score global est obtenu pour l'ensemble des colonnes.
evaluation.xlsx est une feuille de calcul Excel avec une comparaison juxtaposée de la vérité terrain par rapport à la valeur prédite pour chaque champ prédit par le modèle, ainsi qu'une métrique de précision par document, afin d'augmenter la précision. Par conséquent, les documents les plus inexacts sont présentés en haut pour faciliter le diagnostic et le dépannage.

Sommaire de la page