- Démarrage
- Composants de l'infrastructure
- Vue d’ensemble de l’extraction des données
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
- Activités liées à l'extraction de données
- Document Understanding dans AI Center
- Pipelines
- Création de pipelines d'évaluation et d'entraînement
- Paquets ML
- Data Manager
- Services OCR
- Licences
- Référence (Reference)
Guide de l'utilisateur de Document Understanding
Création de pipelines d'évaluation et d'entraînement
Les paquets ML Document Understanding peuvent exécuter les trois types de pipelines (pipeline complet, d'entraînement et d'évaluation).
Pour la plupart des cas d'utilisation, aucun paramètre n'a besoin d'être spécifié ; le modèle utilise des techniques avancées pour trouver un modèle performant.
_results.json
contenant un résumé des détails du pipeline, tels que la version du package, l'ensemble de données, l'utilisation du GPU et le temps d'exécution.
Il existe deux types de pipelines d'entraînement :
- Sur un paquet ML de type Document Understanding
- Sur un paquet ML d'un type différent, tel que les factures (Invoices), les reçus (Receipts), les bons de commande (Purchase Orders), les factures de services publics (Utility Bills), les Factures, Inde (Invoices India) ou les Factures, Australie (Invoices Australia).
L'entraînement à l'aide d'un package « Document Understanding » entraîne simplement un modèle à partir de zéro sur l'ensemble de données fourni en entrée.
Pour les cas d'utilisation avec des documents à faible diversité (formulaires), vous pouvez obtenir de bons résultats avec seulement 30 à 50 échantillons.
Pour les cas d'utilisation avec divers documents où vous n'avez besoin que de champs réguliers ("en-têtes"), vous avez besoin d'au moins 20 à 50 échantillons par champ, donc si vous devez extraire 10 champs réguliers, vous aurez besoin d'au moins 200 à 500 échantillons.
Lorsque vous devez extraire des champs de colonne (par exemple des éléments de ligne), vous avez besoin de 50 à 200 échantillons. Par conséquent, pour 5 champs de colonne, avec des mises en page claires et simples, vous pouvez obtenir de bons résultats avec 300-400 échantillons, mais pour des mises en page très complexes et diverses, cela peut en nécessiter jusqu'à 1000.
Si vous devez également couvrir plusieurs langues, vous avez besoin d'au moins 200 à 300 échantillons par langue. Ces chiffres n'ont pas besoin de s'additionner, sauf pour les langues. Ainsi, pour 10 champs d'en-tête et 5 champs de colonne, 500 échantillons peuvent suffire, mais dans certains cas, il peut en nécessiter plus de 1000.
L’entraînement à l’aide de l’un des packages décrits à l’étape 2 nécessite une entrée supplémentaire : un modèle de base. Nous appelons également cela le réentraînement parce que vous ne partez pas de zéro mais à partir d’un modèle de base. Cette approche utilise une technique appelée apprentissage par transfert (Transfer Learning) où le modèle tire parti des informations encodées dans un autre modèle préexistant. Lorsque vous vous entraînez sur les mêmes champs pour optimiser la précision uniquement, vous pouvez obtenir de bons résultats avec seulement 100 à 500 documents supplémentaires. Si vous ajoutez de nouveaux champs au modèle, vous avez besoin de 30 à 50 documents par nouveau champ pour obtenir de bons résultats. Lorsque vous choisissez la version du modèle de base à utiliser, nous vous suggérons fortement de toujours utiliser 1.0, la version pré-entraînée fournie par UiPath prête à l’emploi.
Les champs de classification ne sont pas réentrainés. Vous devez donc vous assurer, lorsque vous réentrainez un modèle, que l'ensemble de données que vous labellisez contient au moins 10 à 20 échantillons de chaque classe que vous souhaitez que le modèle puisse reconnaître, quelles que soient les performances du modèle pré-entraîné que vous utilisez comme modèle de base.
La version d'AI Fabric de septembre 2020 inclut la capacité de peaufiner les modèles de ML à l'aide de données validées par un humain à l'aide de la Station de Validation.
Étant donné que votre workflow RPA traite les documents à l'aide d'un modèle ML existant, certains documents peuvent nécessiter une validation humaine à l'aide de l'activité Station de validation (Validation Station) (disponible sur les robots surveillés ou dans le navigateur à l'aide d'Action Center Orchestrator).
Les données validées générées dans la Station de validation peuvent être exportées à l'aide de l'activité Machine Learning Extractor Trainer et peuvent être utilisées pour affiner les modèles ML dans AI Fabric.
Nous ne recommandons pas de former des modèles ML à partir de zéro (c'est-à-dire en utilisant le paquet ML DocumentUnderstanding) en utilisant les données de la Station de Validation, mais uniquement de peaufiner les modèles ML existants (y compris les modèles ML prêts à l'emploi) en utilisant les données de la Station de Validation.
Pour connaître les étapes détaillées nécessaires pour le peaufinage d'un modèle de ML, consultez la section Importer l'ensemble de données de la Station de validation de la documentation de Data Manager.
L'utilisation d'un GPU (AI Robot Pro) pour l'entraînement est au moins 10 fois plus rapide que l'utilisation d'un CPU (AI Robot). Veuillez noter que l'entraînement de modèles de Document Understanding sur GPU nécessite un GPU avec au moins 11 Go de RAM vidéo pour fonctionner correctement.
Les modèles de GPU doivent prendre en charge la version 418.0+ Pilotes NVIDIA et pilotes CUDA version 9.0+.
L'entraînement sur CPU est prise en charge pour les ensembles de données jusqu'à 500 images uniquement. Pour les ensembles de données plus volumineux, vous devrez effectuer l'entraînement à l'aide du GPU.
Un dossier contenant l'ensemble de données exporté provenant de Data Manager. Cela comprend :
- images : un dossier contenant les images de toutes les pages labellisées ;
- latest : un dossier contenant des fichiers .json avec les données labellisées de chaque page ;
- schema.json : un fichier contenant les champs à extraire et leurs types ;
- split.csv : un fichier contenant le fractionnement pour chaque document qui sera utilisé soit pour TRAIN, soit pour VALIDATE pendant le Pipeline d'entraînement
- ml_model.epochs : permet de personnaliser le nombre d'époques pour ou le pipeline d'entraînement ou complet (la valeur par défaut est de 150)
Lorsque le pipeline est un Pipeline complet ou d'évaluation, le volet Sorties (Outputs) contient également un dossier « artifacts » qui contient deux fichiers :
- evaluation_metrics.txt contient les scores F1 des champs prédits. Notez que pour les éléments de ligne, seul un score global est obtenu pour l'ensemble des colonnes.
- evaluation.xlsx est une feuille de calcul Excel avec une comparaison juxtaposée de la vérité terrain par rapport à la valeur prédite pour chaque champ prédit par le modèle, ainsi qu'une métrique de précision par document, afin d'augmenter la précision. Par conséquent, les documents les plus inexacts sont présentés en haut pour faciliter le diagnostic et le dépannage.