document-understanding
2022.10
false
UiPath logo, featuring letters U and I in white

Guide de l'utilisateur de Document Understanding

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Dernière mise à jour 11 nov. 2024

La boucle de réglage automatique (aperçu public)

Lors de l'entraînement/du réentraînement d'un modèle de ML, la première chose à garder à l'esprit est que les meilleurs résultats sont obtenus en accumulant toutes les données dans un seul ensemble de données volumineux et, idéalement, géré avec soin. L'entraînement sur l'ensemble de données A, puis le réentraînement du modèle obtenu sur l'ensemble de données B produiront des résultats bien pires que l'entraînement sur les ensembles de données A et B combinés.

La deuxième chose à garder à l'esprit est que toutes les données ne sont pas identiques. Les données labellisées dans un outil dédié comme Document Manager sont en général de meilleure qualité et donneront lieu à un modèle plus performant que les données labellisées dans des outils servant une fonction différente, comme la Station de validation (Validation Station). Les données de la Station de validation (Validation Station) peuvent être de haute qualité du point de vue des processus métier, mais moins du point de vue de l'entraînement d'un modèle, car un modèle ML a besoin de données sous une forme très spécifique, qui est presque toujours différente de la forme requise par les processus de l'entreprise. Par exemple, sur une facture de 10 pages, le numéro de facture peut apparaître sur chaque page, mais dans la Station de validation (Validation Station) il suffit de l'indiquer sur la première page, tandis que dans Document Manager, vous le labelliserez sur chaque page. Dans ce cas, 90 % des labels corrects sont manquants dans les données de la Station de validation. Pour cette raison, les données de la station de validation (Validation Station) ont une utilité limitée, comme décrit ci-dessus.

Pour entraîner efficacement un modèle de ML, vous avez besoin d'un ensemble de données unique, complet, de haute qualité et représentatif. Une approche cumulative consiste donc à ajouter plus de données à l'ensemble de données d'entrée et donc à entraîner le modèle ML avec un ensemble de données plus important à chaque fois. Une façon de le faire est d'utiliser la boucle de réglage automatique (Auto-Fine-tuning).

Pour mieux comprendre cette fonctionnalité, voyons où se situe le réglage automatique dans le cycle de vie du modèle ML.

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.