document-understanding

2022.10

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur de Document Understanding

La boucle de réglage automatique (aperçu public)

Lors de l'entraînement/du réentraînement d'un modèle de ML, la première chose à garder à l'esprit est que les meilleurs résultats sont obtenus en accumulant toutes les données dans un seul ensemble de données volumineux et, idéalement, géré avec soin. L'entraînement sur l'ensemble de données A, puis le réentraînement du modèle obtenu sur l'ensemble de données B produiront des résultats bien pires que l'entraînement sur les ensembles de données A et B combinés.

La deuxième chose à garder à l'esprit est que toutes les données ne sont pas identiques. Les données labellisées dans un outil dédié comme Document Manager sont en général de meilleure qualité et donneront lieu à un modèle plus performant que les données labellisées dans des outils servant une fonction différente, comme la Station de validation (Validation Station). Les données de la Station de validation (Validation Station) peuvent être de haute qualité du point de vue des processus métier, mais moins du point de vue de l'entraînement d'un modèle, car un modèle ML a besoin de données sous une forme très spécifique, qui est presque toujours différente de la forme requise par les processus de l'entreprise. Par exemple, sur une facture de 10 pages, le numéro de facture peut apparaître sur chaque page, mais dans la Station de validation (Validation Station) il suffit de l'indiquer sur la première page, tandis que dans Document Manager, vous le labelliserez sur chaque page. Dans ce cas, 90 % des labels corrects sont manquants dans les données de la Station de validation. Pour cette raison, les données de la station de validation (Validation Station) ont une utilité limitée, comme décrit ci-dessus.

Pour entraîner efficacement un modèle de ML, vous avez besoin d'un ensemble de données unique, complet, de haute qualité et représentatif. Une approche cumulative consiste donc à ajouter plus de données à l'ensemble de données d'entrée et donc à entraîner le modèle ML avec un ensemble de données plus important à chaque fois. Une façon de le faire est d'utiliser la boucle de réglage automatique (Auto-Fine-tuning).

Pour mieux comprendre cette fonctionnalité, voyons où se situe le réglage automatique dans le cycle de vie du modèle ML.

Cette page vous a-t-elle été utile ?

PrécédentRéglage

SuivantÀ propos de Document Manager