Document Understanding : labelliser les documents

document-understanding

2020.10

false

Guide de l'utilisateur de Document Understanding

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Labelliser des documents

Préparation des données

Pour connaître les volumes de documents nécessaires, consultez la section Pipelines d'entraînement et de réentraînement.

Lors de la sélection des documents à utiliser pour l'entraînement, vous devrez également connaître quelques détails. Vous devrez supprimer les pages indésirables qui n'incluent pas de champs d'intérêt, ou qui n'en incluent qu'un ou deux. Vous pouvez le faire dans le Data Manager en utilisant le bouton Supprimer. Les pages ne sont pas perdues, elles peuvent toujours être récupérées depuis la vue Supprimé (Deleted).

Ensuite, si votre cas d'utilisation implique un type de document très diversifié (comme des factures ou des reçus), vous avez besoin d'un ensemble d'entraînement très diversifié. L'ensemble de données doit également être équilibré : vous devez éviter d'avoir 10 fois plus de documents d'un fournisseur que d'un autre. En général, il suffit d'avoir 2-3 documents (c'est-à-dire environ 4 à 6 pages s'il y a 2 pages par document en moyenne) d'une mise en page donnée. Si certains d'entre eux sont très courants dans votre workflow et que vous voulez vous assurer qu'ils sont extraits correctement, vous pouvez inclure 5 à 7 échantillons (10 à 15 pages).

Cependant, si votre cas d'utilisation implique un type de document avec une mise en page fréquemment retrouvé (comme un formulaire), vous aurez besoin d'au moins 30 échantillons car si l'ensemble d'entraînement est trop petit, l'apprentissage du modèle ML peut échouer.

Labellisation de plusieurs utilisateurs en parallèle

Vous pouvez demander à plusieurs personnes d'utiliser la même instance pour effectuer en même temps la labellisation uniquement si les conditions suivantes sont respectées :

deux utilisateurs ne devraient pas labelliser le même document en même temps
chaque fois que des champs sont ajoutés, supprimés ou que leur configuration est modifiée, cela doit être fait par un utilisateur et tous les autres utilisateurs doivent immédiatement actualiser leur navigateur pour voir les modifications. Apporter des modifications aux champs pendant que d'autres personnes sont en train de labelliser entraînera un comportement imprévisible.

Labellisation pour l'entraînement

Lorsque vous importez un ensemble de données sans cocher la case « En faire un ensemble de test (Make this a Testset) » dans la boîte de dialogue Importer des données (Import Data), cet ensemble de données sera utilisé pour l'entraînement. Dans ce cas, vous n'avez qu'à vous concentrer sur la labellisation des mots (boîtes grises) sur le document. Si de temps en temps, le texte qui est rempli dans les champs de la barre latérale n'est pas correct, ce n'est pas un problème car le modèle ML apprendra toujours. Dans certains cas, vous devrez peut-être ajuster la configuration des champs, par exemple, en cochant la case Multi-ligne (Multi-line). Mais, en général, l'accent est mis sur la labellisation des mots sur la page.

Champs qui apparaissent plusieurs fois sur le même document

Il existe de nombreuses situations où un champ apparaît à plusieurs endroits dans le même document, voire sur la même page. Ceux-ci doivent tous être labellisés du moment qu'ils ont la même signification. Un exemple, tiré de nombreuses factures de services publics, est le montant total. Il apparaît souvent en haut, dans une liste d'éléments au milieu, ou dans une fiche de paie, en bas, dans une zone qui peut être détachée et envoyée par la poste avec le chèque. Dans cette situation, les trois occurrences devront être labellisées. Ceci est utile car, dans certains cas, s'il y a une erreur d'OCR ou si la mise en page est différente et qu'un champ ne peut pas être identifié, le modèle peut toujours identifier les autres occurrences.

Il est important de noter que ce qui compte, c'est le sens de la valeur, pas la valeur elle-même. Par exemple, sur certaines factures non imposables, le montant net et le montant total ont la même valeur. Mais ce sont clairement des concepts différents. Par conséquent, ils ne devraient pas tous les deux être labellisés comme montant total. Seul celui dont la signification est de représenter le montant total doit être labellisé comme montant total.

Labellisation pour les tests

Lorsque vous importez un ensemble de données et que vous cochez la case « En faire un ensemble de tests (Make this a Testset) » dans la boîte de dialogue Importer des données (Import Data), cet ensemble de données ne sera pas utilisé par les pipelines d'entraînement dans AI Fabric, mais uniquement par les pipelines d'évaluation. Dans ce cas, il est important que le texte correct soit rempli dans les champs de la barre latérale (ou la barre supérieure dans le cas des champs de colonne). Cela prend beaucoup plus de temps à vérifier pour chaque champ, mais c'est le seul moyen d'obtenir une mesure fiable de la précision du modèle de ML que vous construisez.

Actions de labellisation

Voir ci-dessous les principales actions que vous devez effectuer lors de la labellisation des documents. Un champ donné peut être labellisé à plusieurs endroits sur la même page.

Labelliser un champ
- Sélectionnez des mots en faisant glisser la souris (cadre de sélection) ou en cliquant dessus tout en maintenant la touche Maj enfoncée pour sélectionner plusieurs mots.
- Appuyez sur la touche de raccourci pour labelliser le champ
Supprimer le libellé
- Sélectionnez des mots, puis appuyez sur la touche Supprimer ou Retour arrière de votre clavier.
Grouper une ligne de tableau
- Après avoir labellisé certains champs de colonne, et seulement si certaines lignes s'étendent sur plusieurs lignes de texte, vous pouvez les regrouper en appuyant sur la touche « / »pour indiquer qu'elles font partie de la même ligne de tableau. Une boîte verte apparaîtra autour du groupe.
Dissocier la ligne de tableau
- Sélectionnez le groupe et appuyez à nouveau sur "/"
Corriger l'OCR
- Cliquez avec le bouton droit sur le mot et modifiez le texte dans l'info-bulle qui apparaît. Ceci est rarement recommandé, car en cours de production, l'OCR fera toujours ces erreurs. Par conséquent, il est généralement préférable d'ignorer cette étape et de passer à autre chose.
Apporter des corrections à la valeur labellisée
- Cliquez sur le texte dans la barre latérale ou la barre supérieure et modifiez le contenu. Un petit cadenas apparaîtra pour indiquer que le champ a été modifié manuellement. Ceci est nécessaire lors de la labellisation des ensembles de tests.
Réinitialiser la valeur labellisée à la valeur extraite automatiquement
- Cliquez sur le cadenas et le champ reviendra à sa valeur extraite automatiquement.

Sommaire de la page

Préparation des données
Labellisation de plusieurs utilisateurs en parallèle
Labellisation pour l'entraînement
Champs qui apparaissent plusieurs fois sur le même document
Labellisation pour les tests
Actions de labellisation

Cette page vous a-t-elle été utile ?

PrécédentImporter des documents

SuivantExporter des documents