document-understanding

2024.10

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur de Document Understanding

La boucle de réglage automatique (aperçu public)

Lors de l'entraînement/du réentraînement d'un modèle de ML, la première chose à garder à l'esprit est que les meilleurs résultats sont obtenus en accumulant toutes les données dans un seul ensemble de données volumineux et, idéalement, géré avec soin. L'entraînement sur l'ensemble de données A, puis le réentraînement du modèle obtenu sur l'ensemble de données B produiront des résultats bien pires que l'entraînement sur les ensembles de données A et B combinés.

La deuxième chose à garder à l'esprit est que toutes les données ne se valent pas. Les données étiquetées dans un outil dédié comme Document Manager sont en général de meilleure qualité et donneront lieu à un modèle plus performant que les données étiquetées dans des outils ayant une orientation différente, tels que Station de validation. Les données de Station de validation peuvent être de haute qualité du point de vue des processus métier, mais moins du point de vue de l'entraînement des modèles, car un modèle d'apprentissage automatique a besoin que les données soient présentées sous une forme très spécifique, presque toujours différente de celle des processus métier. Par exemple, sur une facture de 10 pages, le numéro de facture peut être indiqué sur chaque page, mais dans Station de validation, il suffit de l'indiquer sur la première page, tandis que dans Document Manager vous l'étiquetez sur chaque page. Dans ce cas, 90 % des étiquettes correctes sont manquantes dans les données de Station de validation. C'est pourquoi les données de Station de validation ont une utilité limitée.

Pour entraîner efficacement un modèle de ML, vous avez besoin d'un ensemble de données unique, complet, de haute qualité et représentatif. Une approche cumulative consiste donc à ajouter plus de données à l'ensemble de données d'entrée et donc à entraîner le modèle ML avec un ensemble de données plus important à chaque fois. Une façon de le faire est d'utiliser la boucle de réglage automatique (Auto-Fine-tuning).

Le cycle de vie d'un modèle ML

Dans le cycle de vie de tout modèle de Machine Learning, il y a deux phases principales :

la phase de création, et
la phase d'entretien.

La phase de création

Dans la première phase, vous utilisez Document Manager pour préparer l'ensemble de données d'entraînement (training dataset)

Dans le même temps, vous construisez l'automatisation RPA et la démarche commerciale autour du modèle ML, qui est au moins aussi importante que le modèle lui-même pour obtenir le retour sur investissement que vous attendez.

la phase d'entretien.

Dans cette deuxième phase, vous essayez de maintenir le niveau de performance élevé que vous avez atteint lors de la phase de construction, évitant les régressions.

Le réglage automatique (Auto-Fine-tuning) (et les données de la Station de Validation en général) concerne uniquement la phase de maintenance. L'objectif du réglage automatique est principalement d'empêcher le modèle ML de régresser à mesure que les données circulant dans le processus changent.

Important :

Les données renvoyées par la validation humaine à l'aide de la Station de validation (Validation de station) ne doivent pas être utilisées pour créer un modèle à partir de zéro. La construction d'un modèle doit être effectuée en préparant des ensembles de données d'entraînement et d'évaluation dans Document Manager.

Composants de la boucle de réglage automatique

La boucle de réglage automatique comprend les éléments suivants :

Workflow du robot (Robot Workflow) : activité Machine Learning Extractor Trainer
Document Manager : fonctionnalité de planification de l'exportation
AI Center : Pipeline de réentraînement automatique planifié
1. (Facultatif) Mise à jour automatique des compétences ML

Prérequis

Pour pouvoir mettre en œuvre cette fonctionnalité, deux conditions doivent être préalablement remplies :

Vous devez avoir créé une session Document Manager dans AI Center et avoir configuré un certain nombre de champs, plus précisément pour labelliser des ensembles de données d'entraînement et d'évaluation de haute qualité. Vous pouvez soit définir manuellement vos champs, soit importer un schéma. Si les champs ne sont pas configurés, l'onglet Planification (Aperçu) n'est pas activé et le message suivant s'affiche à l'écran :
Vous devez avoir formé quelques versions de votre modèle de ML, l'avoir testé, corrigé tous les problèmes qui auraient pu survenir et l'avoir déployé dans votre automatisation RPA + AI.

1. Workflow du robot (Robot Workflow) : activité Machine Learning Extractor Trainer

Add the Machine Learning Extractor Trainer activity into your workflow in a Train Extractors Scope and properly configure the scope
Make sure the Framework Alias contains the same alias as the Machine Learning Extractor alias in the Data Extraction Scope.
Select the Project and the Dataset associated with the Document Manager session that contains your Training and Evaluation datasets. The drop-down menus are prepopulated once you are connected to Orchestrator.

Remarque :
Vous pouvez définir une valeur pour la propriété Dossier de sortie (Output Folder) si vous souhaitez exporter les données localement dans le workflow.

Vous pouvez vérifier le nom de l'ensemble de données dans la vue Étiquetage des données d'AI Center, à côté du nom de la session d'Étiquetage des données :

Pour l'ensemble de données sélectionné, l'activité Machine Learning Extractor Trainer crée un dossier appelé fine-tune (affiner) et y écrit les documents exportés dans 3 dossiers : les dossiers documents, métadonnées (metadata) et prédictions (predictions).

Ce dossier est désigné pour l’importation automatique de données dans Document Manager. Les données importées seront fusionnées avec les données existantes. Ces données fusionnées seront ensuite exportées dans le bon format afin d’être utilisées dans un pipeline d’entraînement ou un pipeline complet. Les données importées sont automatically réparties entre deux catégories : entraînement et validation, en maintenant une répartition de 80 %/20 %. Par conséquent, les données exportées contiendront des ensembles d’entraînement ainsi que des ensembles de validation issus des données récemment collectées. Les données seront importées automatiquement uniquement si l’exportation planifiée est activée dans Document Manager.

2. Document Manager : fonctionnalité de planification de l'exportation (Schedule Export feature)

Depuis une session Document Manager , sélectionnez le bouton Exporter. , accédez à l’onglet Planification (Aperçu) (Schedule) et activez le curseur Planifier . Sélectionnez ensuite une heure de début et une récurrence. Lorsque vous êtes prêt, sélectionnez le bouton Planifier .

La case à cocher Exportation rétrocompatible (Backwards-compatible export) vous permet d'appliquer le comportement d'exportation hérité, qui consiste à exporter chaque page en tant que document distinct. Essayez cette option si le modèle entraîné à l’aide de l’exportation par défaut est inférieur aux attentes. Laissez cette option décochée pour exporter les documents dans leur forme originale de plusieurs pages.

Remarque :

La périodicité minimale est de 1 jour et la périodicité maximale est de 60 jours.

Étant donné que les pipelines d'entraînement AI Center sont principalement configurés pour s'exécuter hebdomadairement, une périodicité de 7 jours est recommandée.

Lorsque vous définissez le calendrier d'exportation, les données importées du dossier fine-tune sont exportées vers le dossier d'exportation sous auto-export time_stamp.

Remarque :

Il y a une limite d'importation de 2 000 pages par exécution de réapprentissage automatique.

Pour être plus précis, l'exportation planifiée importe les données qui existent dans le dossier fine-tune créé à l'étape 1, puis elle exporte l'ensemble de données complet, y compris les données existantes et les données de la station de validation nouvellement importées, dans le dossier d'exportation. Ainsi, à chaque exportation planifiée, l'ensemble de données exporté devient de plus en plus volumineux.

Le fichier latest.txt est mis à jour ou créé s'il s'agit de la première exportation planifiée. Vous pouvez ici vérifier le nom de la dernière exportation effectuée par Document Manager. L'exportation de schéma, cependant, ne met pas à jour latest.txt. Ce fichier est utilisé par le pipeline de réentraînement automatique d'AI Center pour déterminer quelle est la dernière exportation, afin qu'il s'entraîne toujours sur les données les plus récentes. Vous ne devez donc jamais le supprimer ni le modifier, sinon vos pipelines de réentraînement automatique échoueront.

Remarque :

La planification d'importation + d'exportation planifiée peut prendre de 1 à 2 heures, selon la quantité de données envoyées à partir de l'étape 1 lors de la semaine précédente. Nous vous recommandons de choisir un moment pour ne pas utiliser le Document Manager, car lorsqu'une opération d'exportation est en cours, aucune autre exportation ou importation n'est autorisée. Cependant, la labellisation est toujours possible.

3. AI Center : Pipeline de réentraînement automatique programmé

Lors de la planification d'un pipeline d'entraînement ou complet dans AI Center, certains aspects doivent être pris en compte.

Tout d'abord, nous vous recommandons fortement de créer un ensemble de données d'évaluation et de ne planifier que des pipelines complets. Les pipelines complets exécutent l'entraînement et l'évaluation ensemble, et le pipeline d'évaluation utilise l'ensemble de données d'évaluation pour produire un score. Ce score sera essentiel pour décider si la nouvelle version est meilleure que la version précédente, et peut être déployé pour être consommé par les Robots.

Deuxièmement, pour le pipeline complet, vous devez spécifier deux ensembles de données : un ensemble de données d'entrée et un ensemble de données d'évaluation.

Il n'y a aucun changement dans l'ensemble de données d'évaluation dans le contexte de la fonctionnalité de boucle de réglage automatique. Vous devez toujours sélectionner un ensemble de données comme d'habitude, contenant les deux dossiers : images et dernier, et les deux fichiers : schema.json et split.csv.

Cependant, l'ensemble de données d'entrée n'est plus un ensemble de données, mais vous devez sélectionner le dossier d'exportation dans l'ensemble de données AI Center connecté à la session de labellisation de données. De cette façon, l'entraînement s'exécute sur la dernière exportation de votre session de labellisation des données tandis que l'évaluation s'exécute sur le même ensemble de données d'évaluation que vous spécifiez.

Important :

Si vous ne sélectionnez pas le dossier d'exportation, le réentraînement automatique ne fonctionne pas.

Troisièmement, vous devez définir la variable d'environnement de réapprentissage automatique sur True.

Enfin, vous devez sélectionner Récurrent (Recurring) et définir un jour et une heure pour laisser suffisamment de temps pour que l'exportation à partir de Document Manager se termine. Par exemple, si l'exportation du Document Manager est effectuée à 1 h 00 le samedi, le Pipeline peut être exécuté à 2 h 00 ou 3 h 00 le samedi. Si l'exportation n'est pas terminée lorsque le pipeline s'exécute, il utilise l'exportation précédente et risquera de se réentraîner sur les mêmes données qu'il a entraînées la semaine précédente.

4. (Facultatif) Mise à jour automatique des compétences ML

Si vous souhaitez déployer automatiquement la dernière version du paquet ML produit par les pipelines d'entraînement programmés automatiquement, vous pouvez activer la fonction Mise à jour automatique (Auto-update) sur la compétence ML.

Remarque :

La compétence ML est automatiquement mise à jour, que le score de précision s'améliore ou non par rapport à l'entraînement précédent ; veuillez donc utiliser cette fonctionnalité avec précaution.

Dans certains cas, il est possible que le score global s'améliore même si un champ spécifique régresse un peu. Cependant, ce champ peut être d'une importance capitale pour votre processus métier, donc la mise à jour automatique et le réentraînement automatique, en général, nécessitent une surveillance attentive pour pouvoir être un succès.

La boucle de réglage automatique est terminée. Vous pouvez désormais réentraîner automatiquement vos modèles ML à l'aide des données de la Station de validation.

Sommaire de la page

Le cycle de vie d'un modèle ML
La phase de création
la phase d'entretien.
Composants de la boucle de réglage automatique
Prérequis
1. Workflow du robot (Robot Workflow) : activité Machine Learning Extractor Trainer
2. Document Manager : fonctionnalité de planification de l'exportation (Schedule Export feature)
3. AI Center : Pipeline de réentraînement automatique programmé
4. (Facultatif) Mise à jour automatique des compétences ML

Cette page vous a-t-elle été utile ?

PrécédentRéglage

SuivantCréer des types de document

Guide de l'utilisateur de Document Understanding

Le cycle de vie d'un modèle ML​

La phase de création​

la phase d'entretien.​

Composants de la boucle de réglage automatique​

Prérequis​

1. Workflow du robot (Robot Workflow) : activité Machine Learning Extractor Trainer​

2. Document Manager : fonctionnalité de planification de l'exportation (Schedule Export feature)​

3. AI Center : Pipeline de réentraînement automatique programmé​

4. (Facultatif) Mise à jour automatique des compétences ML​

Cette page vous a-t-elle été utile ?

Le cycle de vie d'un modèle ML

La phase de création

la phase d'entretien.

Composants de la boucle de réglage automatique

Prérequis

1. Workflow du robot (Robot Workflow) : activité Machine Learning Extractor Trainer

2. Document Manager : fonctionnalité de planification de l'exportation (Schedule Export feature)

3. AI Center : Pipeline de réentraînement automatique programmé

4. (Facultatif) Mise à jour automatique des compétences ML