UiPath Documentation
document-understanding
2024.10
false
Important :
La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.
UiPath logo, featuring letters U and I in white

Document Understanding user guide

Dernière mise à jour 6 avr. 2026

La boucle de réglage automatique (aperçu public)

Lors de l'entraînement/du réentraînement d'un modèle de ML, la première chose à garder à l'esprit est que les meilleurs résultats sont obtenus en accumulant toutes les données dans un seul ensemble de données volumineux et, idéalement, géré avec soin. L'entraînement sur l'ensemble de données A, puis le réentraînement du modèle obtenu sur l'ensemble de données B produiront des résultats bien pires que l'entraînement sur les ensembles de données A et B combinés.

La deuxième chose à garder à l'esprit est que toutes les données ne se valent pas. Les données étiquetées dans un outil dédié comme Document Manager sont en général de meilleure qualité et donneront lieu à un modèle plus performant que les données étiquetées dans des outils ayant une orientation différente, tels que Station de validation. Les données de Station de validation peuvent être de haute qualité du point de vue des processus métier, mais moins du point de vue de l'entraînement des modèles, car un modèle d'apprentissage automatique a besoin que les données soient présentées sous une forme très spécifique, presque toujours différente de celle des processus métier. Par exemple, sur une facture de 10 pages, le numéro de facture peut être indiqué sur chaque page, mais dans Station de validation, il suffit de l'indiquer sur la première page, tandis que dans Document Manager vous l'étiquetez sur chaque page. Dans ce cas, 90 % des étiquettes correctes sont manquantes dans les données de Station de validation. C'est pourquoi les données de Station de validation ont une utilité limitée.

Pour entraîner efficacement un modèle de ML, vous avez besoin d'un ensemble de données unique, complet, de haute qualité et représentatif. Une approche cumulative consiste donc à ajouter plus de données à l'ensemble de données d'entrée et donc à entraîner le modèle ML avec un ensemble de données plus important à chaque fois. Une façon de le faire est d'utiliser la boucle de réglage automatique (Auto-Fine-tuning).

Le cycle de vie d'un modèle ML

Dans le cycle de vie de tout modèle de Machine Learning, il y a deux phases principales :

  • la phase de création, et
  • la phase d'entretien.

La phase de création

Dans la première phase, vous utilisez Document Manager pour préparer l'ensemble de données d'entraînement (training dataset)

Dans le même temps, vous construisez l'automatisation RPA et la démarche commerciale autour du modèle ML, qui est au moins aussi importante que le modèle lui-même pour obtenir le retour sur investissement que vous attendez.

la phase d'entretien.

Dans cette deuxième phase, vous essayez de maintenir le niveau de performance élevé que vous avez atteint lors de la phase de construction, évitant les régressions.

Le réglage automatique (Auto-Fine-tuning) (et les données de la Station de Validation en général) concerne uniquement la phase de maintenance. L'objectif du réglage automatique est principalement d'empêcher le modèle ML de régresser à mesure que les données circulant dans le processus changent.

Important :

Data fed back from the human validation using Validation Station should not be used to build a model from scratch. Building a model should be done by preparing training and evaluation datasets in Document Manager.

Composants de la boucle de réglage automatique

La boucle de réglage automatique comprend les éléments suivants :

  1. Workflow du robot (Robot Workflow) : activité Machine Learning Extractor Trainer
  2. Document Manager : fonctionnalité de planification de l'exportation
  3. AI Center : Pipeline de réentraînement automatique planifié
    1. (Optional) Auto-update ML Skills

Prérequis

Pour pouvoir mettre en œuvre cette fonctionnalité, deux conditions doivent être préalablement remplies :

  • Vous devez avoir créé une session Document Manager dans AI Center et avoir configuré un certain nombre de champs, plus précisément pour labelliser des ensembles de données d'entraînement et d'évaluation de haute qualité. Vous pouvez soit définir manuellement vos champs, soit importer un schéma. Si les champs ne sont pas configurés, l'onglet Planification (Aperçu) n'est pas activé et le message suivant s'affiche à l'écran :

    Capture d'écran de l'interface Exporter des fichiers.

  • Vous devez avoir formé quelques versions de votre modèle de ML, l'avoir testé, corrigé tous les problèmes qui auraient pu survenir et l'avoir déployé dans votre automatisation RPA + AI.

1. Workflow du robot (Robot Workflow) : activité Machine Learning Extractor Trainer

  • Add the Machine Learning Extractor Trainer activity into your workflow in a Train Extractors Scope and properly configure the scope

  • Make sure the Framework Alias contains the same alias as the Machine Learning Extractor alias in the Data Extraction Scope.

  • Select the Project and the Dataset associated with the Document Manager session that contains your Training and Evaluation datasets. The drop-down menus are prepopulated once you are connected to Orchestrator.

    Remarque :

    You can set a value for the Output Folder property if you want to export the data locally in the workflow.

    Capture d'écran de l'interface Étendue des extracteurs d'entraînement.

Vous pouvez vérifier le nom de l'ensemble de données dans la vue Étiquetage des données d'AI Center, à côté du nom de la session d'Étiquetage des données :

Capture d'écran de l'interface Session d'étiquetage de données.

Pour l'ensemble de données sélectionné, l'activité Machine Learning Extractor Trainer crée un dossier appelé fine-tune (affiner) et y écrit les documents exportés dans 3 dossiers : les dossiers documents, métadonnées (metadata) et prédictions (predictions).

Capture d'écran de l'interface Ensembles de données.

Ce dossier est désigné pour l’importation automatique de données dans Document Manager. Les données importées seront fusionnées avec les données existantes. Ces données fusionnées seront ensuite exportées dans le bon format afin d’être utilisées dans un pipeline d’entraînement ou un pipeline complet. Les données importées sont automatically réparties entre deux catégories : entraînement et validation, en maintenant une répartition de 80 %/20 %. Par conséquent, les données exportées contiendront des ensembles d’entraînement ainsi que des ensembles de validation issus des données récemment collectées. Les données seront importées automatiquement uniquement si l’exportation planifiée est activée dans Document Manager.

2. Document Manager : fonctionnalité de planification de l'exportation (Schedule Export feature)

From a Document Manager session, select the Export button Bouton exporter, go to the Schedule (Preview) tab, and enable the Scheduling slider. Then select a start time and a recurrence. When ready, select the Schedule button.

La case à cocher Exportation rétrocompatible (Backwards-compatible export) vous permet d'appliquer le comportement d'exportation hérité, qui consiste à exporter chaque page en tant que document distinct. Essayez cette option si le modèle entraîné à l’aide de l’exportation par défaut est inférieur aux attentes. Laissez cette option décochée pour exporter les documents dans leur forme originale de plusieurs pages.

Remarque :

La périodicité minimale est de 1 jour et la périodicité maximale est de 60 jours.

Étant donné que les pipelines d'entraînement AI Center sont principalement configurés pour s'exécuter hebdomadairement, une périodicité de 7 jours est recommandée.

Capture d'écran de l'interface Exporter des fichiers.

When you set the schedule for export, the imported data from the fine-tune folder is exported to the export folder under auto-export time_stamp.

Remarque :

There is a 2000 page import limit per auto-retrain run.

Pour être plus précis, l'exportation planifiée importe les données qui existent dans le dossier fine-tune créé à l'étape 1, puis elle exporte l'ensemble de données complet, y compris les données existantes et les données de la station de validation nouvellement importées, dans le dossier d'exportation. Ainsi, à chaque exportation planifiée, l'ensemble de données exporté devient de plus en plus volumineux.

The file latest.txt is updated or created if this is the first scheduled export. Here you can check the name of the latest export made by Document Manager. Schema export, however, does not update latest.txt. This file is used by the auto-retraining pipeline in AI Center to determine which is the latest export so it can always train on the latest data, so you should never remove or modify it, otherwise, your auto-retraining pipelines will fail.

Capture d'écran de l'interface Ensembles de données.

Remarque :

The Scheduled import+export operation might take up to 1-2 hours, depending on how much data was sent from Step 1 during the previous week. We recommend you choose a time when you will not use the Document Manager due to the fact that when an export operation is ongoing no other exports or imports are allowed. However, labeling is always possible.

3. AI Center : Pipeline de réentraînement automatique programmé

Lors de la planification d'un pipeline d'entraînement ou complet dans AI Center, certains aspects doivent être pris en compte.

Tout d'abord, nous vous recommandons fortement de créer un ensemble de données d'évaluation et de ne planifier que des pipelines complets. Les pipelines complets exécutent l'entraînement et l'évaluation ensemble, et le pipeline d'évaluation utilise l'ensemble de données d'évaluation pour produire un score. Ce score sera essentiel pour décider si la nouvelle version est meilleure que la version précédente, et peut être déployé pour être consommé par les Robots.

Deuxièmement, pour le pipeline complet, vous devez spécifier deux ensembles de données : un ensemble de données d'entrée et un ensemble de données d'évaluation.

Capture d'écran de l'interface des deux ensembles de données.

Il n'y a aucun changement dans l'ensemble de données d'évaluation dans le contexte de la fonctionnalité de boucle de réglage automatique. Vous devez toujours sélectionner un ensemble de données comme d'habitude, contenant les deux dossiers : images et dernier, et les deux fichiers : schema.json et split.csv.

Cependant, l'ensemble de données d'entrée n'est plus un ensemble de données, mais vous devez sélectionner le dossier d'exportation dans l'ensemble de données AI Center connecté à la session de labellisation de données. De cette façon, l'entraînement s'exécute sur la dernière exportation de votre session de labellisation des données tandis que l'évaluation s'exécute sur le même ensemble de données d'évaluation que vous spécifiez.

Important :

If you do not select the export folder, the auto-retraining does not work.

Troisièmement, vous devez définir la variable d'environnement de réapprentissage automatique sur True.

Enfin, vous devez sélectionner Récurrent (Recurring) et définir un jour et une heure pour laisser suffisamment de temps pour que l'exportation à partir de Document Manager se termine. Par exemple, si l'exportation du Document Manager est effectuée à 1 h 00 le samedi, le Pipeline peut être exécuté à 2 h 00 ou 3 h 00 le samedi. Si l'exportation n'est pas terminée lorsque le pipeline s'exécute, il utilise l'exportation précédente et risquera de se réentraîner sur les mêmes données qu'il a entraînées la semaine précédente.

Capture d'écran de l'interface Créer une nouvelle exécution de pipeline.

4. (Facultatif) Mise à jour automatique des compétences ML

Si vous souhaitez déployer automatiquement la dernière version du paquet ML produit par les pipelines d'entraînement programmés automatiquement, vous pouvez activer la fonction Mise à jour automatique (Auto-update) sur la compétence ML.

Remarque :

La compétence ML est automatiquement mise à jour, que le score de précision s'améliore ou non par rapport à l'entraînement précédent ; veuillez donc utiliser cette fonctionnalité avec précaution.

Dans certains cas, il est possible que le score global s'améliore même si un champ spécifique régresse un peu. Cependant, ce champ peut être d'une importance capitale pour votre processus métier, donc la mise à jour automatique et le réentraînement automatique, en général, nécessitent une surveillance attentive pour pouvoir être un succès.

Capture d'écran de l'interface Mise à jour de Compétence ML.

La boucle de réglage automatique est terminée. Vous pouvez désormais réentraîner automatiquement vos modèles ML à l'aide des données de la Station de validation.

Cette page vous a-t-elle été utile ?

Connecter

Besoin d'aide ? Assistance

Vous souhaitez apprendre ? UiPath Academy

Vous avez des questions ? UiPath Forum

Rester à jour