document-understanding

2022.4

true

Guide de l'utilisateur de Document Understanding

PRODUIT :

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Dernière mise à jour 24 oct. 2024

La boucle de réglage automatique (aperçu public)

Lors de l'entraînement/du réentraînement d'un modèle de ML, la première chose à garder à l'esprit est que les meilleurs résultats sont obtenus en accumulant toutes les données dans un seul ensemble de données volumineux et, idéalement, géré avec soin. L'entraînement sur l'ensemble de données A, puis le réentraînement du modèle obtenu sur l'ensemble de données B produiront des résultats bien pires que l'entraînement sur les ensembles de données A et B combinés.

La deuxième chose à garder à l'esprit est que toutes les données ne sont pas identiques. Les données labellisées dans un outil dédié comme Document Manager sont en général de meilleure qualité et donneront lieu à un modèle plus performant que les données labellisées dans des outils servant une fonction différente, comme la Station de validation (Validation Station). Les données de la Station de validation (Validation Station) peuvent être de haute qualité du point de vue des processus métier, mais moins du point de vue de l'entraînement d'un modèle, car un modèle ML a besoin de données sous une forme très spécifique, qui est presque toujours différente de la forme requise par les processus de l'entreprise. Par exemple, sur une facture de 10 pages, le numéro de facture peut apparaître sur chaque page, mais dans la Station de validation (Validation Station) il suffit de l'indiquer sur la première page, tandis que dans Document Manager, vous le labelliserez sur chaque page. Dans ce cas, 90 % des labels corrects sont manquants dans les données de la Station de validation. Pour cette raison, les données de la station de validation (Validation Station) ont une utilité limitée, comme décrit ci-dessus.

Pour entraîner efficacement un modèle de ML, vous avez besoin d'un ensemble de données unique, complet, de haute qualité et représentatif. Une approche cumulative consiste donc à ajouter plus de données à l'ensemble de données d'entrée et donc à entraîner le modèle ML avec un ensemble de données plus important à chaque fois. Une façon de le faire est d'utiliser la boucle de réglage automatique (Auto-Fine-tuning).

Pour mieux comprendre cette fonctionnalité, voyons où se situe le réglage automatique dans le cycle de vie du modèle ML.

Le cycle de vie d'un modèle ML

Dans le cycle de vie de tout modèle de Machine Learning, il y a deux phases principales :

La phase de création
la phase d'entretien.

La phase de création

Dans la première phase, vous utilisez Document Manager pour préparer l'ensemble de données d'entraînement (training dataset) et l'ensemble de données d'évaluation (evaluation dataset) afin d'obtenir les meilleures performances possibles.

Dans le même temps, vous construisez l'automatisation RPA et la démarche commerciale autour du modèle ML, qui est au moins aussi importante que le modèle lui-même pour obtenir le retour sur investissement que vous attendez.

La phase d'entretien

Dans cette deuxième phase, vous essayez de maintenir le niveau de performance élevé que vous avez atteint lors de la phase de construction, évitant les régressions.

Le réglage automatique (Auto-Fine-tuning) (et les données de la Station de Validation en général) concerne uniquement la phase de maintenance. L'objectif du réglage automatique est principalement d'empêcher le modèle ML de régresser à mesure que les données circulant dans le processus changent.

Attention : les données renvoyées par la validation humaine à l'aide de la Station de validation (Validation de station) ne doivent pas être utilisées pour créer un modèle à partir de zéro. La construction d'un modèle doit être effectuée en préparant des ensembles de données d'entraînement et d'évaluation dans Document Manager.

Composants de la boucle de réglage automatique

La boucle de réglage automatique comprend les éléments suivants :

1. Workflow du robot (Robot Workflow) : activité Machine Learning Extractor Trainer
2. Document Manager : fonctionnalité de planification de l'exportation (Schedule Export feature)
3. AI Center : Pipeline de réentraînement automatique programmé
4. (Facultatif) Mise à jour automatique des compétences ML

Prérequis

Pour pouvoir mettre en œuvre cette fonctionnalité, deux conditions doivent être préalablement remplies :

Vous devez avoir créé une session Document Manager dans AI Center et avoir configuré un certain nombre de champs, plus précisément pour labelliser des ensembles de données d'entraînement et d'évaluation de haute qualité. Vous pouvez soit définir manuellement vos champs, soit importer un schéma. Si les champs ne sont pas configurés, l'onglet Planification (Aperçu) n'est pas activé et le message suivant s'affiche à l'écran :
Vous devez avoir formé quelques versions de votre modèle de ML, l'avoir testé, corrigé tous les problèmes qui auraient pu survenir et l'avoir déployé dans votre automatisation RPA + AI.

1. Workflow du robot (Robot Workflow) : activité Machine Learning Extractor Trainer

Ajoutez l'activité Machine Learning Extractor Trainer à votre workflow dans une activité Tester l'étendue des extracteurs (Train Extractors Scope), configurez correctement le champ d'application, en vous assurant que l'alias Framework contient le même alias que l'alias Machine Learning Extractor dans le champ Étendue de l'extraction de données (Data Extraction Scope).

Ensuite, sélectionnez le projet (Project) et l'ensemble de données (Dataset) associés à la session Document Manager qui contient vos ensembles de données d'entraînement et d'évaluation. Les menus déroulants sont préremplis une fois que vous êtes connecté à Orchestrator.

Remarque : vous pouvez définir une valeur pour la propriété Dossier de sortie (Output Folder) si vous souhaitez exporter les données localement dans le workflow.

Vous pouvez voir le nom de l'ensemble de données dans la vue Labellisation des données (Data Labelling) dans AI Center, à côté du nom de la session de labellisation des données :

Pour l'ensemble de données sélectionné, l'activité Machine Learning Extractor Trainer crée un dossier appelé fine-tune (affiner) et y écrit les documents exportés dans 3 dossiers : les dossiers documents, métadonnées (metadata) et prédictions (predictions).

Il s'agit du dossier dans lequel les données seront ensuite importées automatiquement dans Document Manager, fusionnées avec les données existantes et exportées dans le bon format pour être utilisées par un pipeline d'entraînement ou complet.

2. Document Manager : fonctionnalité de planification de l'exportation (Schedule Export feature)

À partir d'une session Document Manager, cliquez sur le bouton Exporter (Export) , accédez à l'onglet Planification (Aperçu) (Schedule (Preview)) et activez le curseur Planifier (Scheduling). Sélectionnez ensuite une heure de début et une récurrence. Lorsque vous êtes prêt, cliquez sur le bouton Planification (Schedule).

La case à cocher Exportation rétrocompatible (Backwards-compatible export) vous permet d'appliquer le comportement d'exportation hérité, qui consiste à exporter chaque page en tant que document distinct. Essayez cette option si le modèle entraîné à l’aide de l’exportation par défaut est inférieur aux attentes. Laissez cette option décochée pour exporter les documents dans leur forme originale de plusieurs pages.

Remarque :

La périodicité minimale est de 1 jour et la périodicité maximale est de 60 jours.

Étant donné que les pipelines d'entraînement AI Center sont principalement configurés pour s'exécuter hebdomadairement, une périodicité de 7 jours est recommandée.

Lorsque vous définissez le calendrier d'exportation, les données importées du dossier fine-tune sont exportées vers le dossier d'exportation sous auto-export time_stamp.

Pour être plus précis, l'exportation planifiée importe les données qui existent dans le dossier fine-tune créé à l'étape 1, puis elle exporte l'ensemble de données complet, y compris les données existantes et les données de la station de validation nouvellement importées, dans le dossier d'exportation. Ainsi, à chaque exportation planifiée, l'ensemble de données exporté devient de plus en plus volumineux.

Le fichier latest.txt est mis à jour ou créé s'il s'agit de la première exportation planifiée. Ici, vous pouvez voir le nom de la dernière exportation effectuée par Document Manager. L'exportation de schéma, cependant, ne met pas à jour latest.txt. Ce fichier est utilisé par le pipeline de réentraînement automatique programmé dans AI Center pour déterminer quelle est la dernière exportation afin qu'il puisse toujours s'entraîner sur les données les plus récentes, vous ne devez donc jamais le supprimer ou le modifier, ou vos pipelines de réentraînement automatique échoueront.

Remarque : la planification d'importation + d'exportation planifiée peut prendre de 1 à 2 heures, selon la quantité de données envoyées à partir de l'étape 1 lors de la semaine précédente. Nous vous recommandons de choisir un moment pour ne pas utiliser le Document Manager, car lorsqu'une opération d'exportation est en cours, aucune autre exportation ou importation n'est autorisée. Cependant, la labellisation est toujours possible.

3. AI Center : Pipeline de réentraînement automatique programmé

Lors de la planification d'un pipeline d'entraînement ou complet dans AI Center, certains aspects doivent être pris en compte.

Tout d'abord, nous vous recommandons fortement de créer un ensemble de données d'évaluation et de ne planifier que des pipelines complets. Les pipelines complets exécutent l'entraînement et l'évaluation ensemble, et le pipeline d'évaluation utilise l'ensemble de données d'évaluation pour produire un score. Ce score sera essentiel pour décider si la nouvelle version est meilleure que la version précédente, et peut être déployé pour être consommé par les Robots.

Deuxièmement, pour le pipeline complet, vous devez spécifier deux ensembles de données : un ensemble de données d'entrée et un ensemble de données d'évaluation.

Il n'y a aucun changement dans l'ensemble de données d'évaluation dans le contexte de la fonctionnalité de boucle de réglage automatique. Vous devez toujours sélectionner un ensemble de données comme d'habitude, contenant les deux dossiers : images et dernier, et les deux fichiers : schema.json et split.csv.

Cependant, l'ensemble de données d'entrée n'est plus un ensemble de données, mais vous devez sélectionner le dossier d'exportation dans l'ensemble de données AI Center connecté à la session de labellisation de données. De cette façon, l'entraînement s'exécute sur la dernière exportation de votre session de labellisation des données tandis que l'évaluation s'exécute sur le même ensemble de données d'évaluation que vous spécifiez.

Attention : si vous ne sélectionnez pas le dossier d'exportation, le réentraînement automatique ne fonctionne pas.

Troisièmement, vous devez définir la variable d'environnement de réapprentissage automatique sur True.

Enfin, vous devez sélectionner Récurrent (Recurring) et définir un jour et une heure pour laisser suffisamment de temps pour que l'exportation à partir de Document Manager se termine. Par exemple, si l'exportation du Document Manager est effectuée à 1 h 00 le samedi, le Pipeline peut être exécuté à 2 h 00 ou 3 h 00 le samedi. Si l'exportation n'est pas terminée lorsque le pipeline s'exécute, il utilise l'exportation précédente et risquera de se réentraîner sur les mêmes données qu'il a entraînées la semaine précédente.

4. (Facultatif) Mise à jour automatique des compétences ML

Si vous souhaitez déployer automatiquement la dernière version du paquet ML produit par les pipelines d'entraînement programmés automatiquement, vous pouvez activer la fonction Mise à jour automatique (Auto-update) sur la compétence ML.

Remarque :

La compétence ML est automatiquement mise à jour, que le score de précision s'améliore ou non par rapport à l'entraînement précédent ; veuillez donc utiliser cette fonctionnalité avec précaution.

Dans certains cas, il est possible que le score global s'améliore même si un champ spécifique régresse un peu. Cependant, ce champ peut être d'une importance capitale pour votre processus métier, donc la mise à jour automatique et le réentraînement automatique, en général, nécessitent une surveillance attentive pour pouvoir être un succès.

La boucle de réglage automatique est terminée. Vous pouvez désormais réentraîner automatiquement vos modèles ML à l'aide des données de la Station de validation.

Sommaire de la page