- Démarrage
- Composants de l'infrastructure
- Vue d’ensemble de l’extraction des données
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
- Activités liées à l'extraction de données
- Document Understanding dans AI Center
- Pipelines
- Paquets ML
- Data Manager
- Services OCR
- Licences
- Référence (Reference)
Guide de l'utilisateur de Document Understanding
Labelliser des documents
Pour connaître les volumes de documents nécessaires, consultez la section Pipelines d'entraînement et de réentraînement.
Lors de la sélection des documents à utiliser pour l'entraînement, vous devrez également connaître quelques détails. Vous devrez supprimer les pages indésirables qui n'incluent pas de champs d'intérêt, ou qui n'en incluent qu'un ou deux. Vous pouvez le faire dans le Data Manager en utilisant le bouton Supprimer. Les pages ne sont pas perdues, elles peuvent toujours être récupérées depuis la vue Supprimé (Deleted).
Ensuite, si votre cas d'utilisation implique un type de document très diversifié (comme des factures ou des reçus), vous avez besoin d'un ensemble d'entraînement très diversifié. L'ensemble de données doit également être équilibré : vous devez éviter d'avoir 10 fois plus de documents d'un fournisseur que d'un autre. En général, il suffit d'avoir 2-3 documents (c'est-à-dire environ 4 à 6 pages s'il y a 2 pages par document en moyenne) d'une mise en page donnée. Si certains d'entre eux sont très courants dans votre workflow et que vous voulez vous assurer qu'ils sont extraits correctement, vous pouvez inclure 5 à 7 échantillons (10 à 15 pages).
Cependant, si votre cas d'utilisation implique un type de document avec une mise en page fréquemment retrouvé (comme un formulaire), vous aurez besoin d'au moins 30 échantillons car si l'ensemble d'entraînement est trop petit, l'apprentissage du modèle ML peut échouer.
Vous pouvez demander à plusieurs personnes d'utiliser la même instance pour effectuer en même temps la labellisation uniquement si les conditions suivantes sont respectées :
- deux utilisateurs ne devraient pas labelliser le même document en même temps
- chaque fois que des champs sont ajoutés, supprimés ou que leur configuration est modifiée, cela doit être fait par un utilisateur et tous les autres utilisateurs doivent immédiatement actualiser leur navigateur pour voir les modifications. Apporter des modifications aux champs pendant que d'autres personnes sont en train de labelliser entraînera un comportement imprévisible.
Lorsque vous importez un ensemble de données sans cocher la case « En faire un ensemble de test (Make this a Testset) » dans la boîte de dialogue Importer des données (Import Data), cet ensemble de données sera utilisé pour l'entraînement. Dans ce cas, vous n'avez qu'à vous concentrer sur la labellisation des mots (boîtes grises) sur le document. Si de temps en temps, le texte qui est rempli dans les champs de la barre latérale n'est pas correct, ce n'est pas un problème car le modèle ML apprendra toujours. Dans certains cas, vous devrez peut-être ajuster la configuration des champs, par exemple, en cochant la case Multi-ligne (Multi-line). Mais, en général, l'accent est mis sur la labellisation des mots sur la page.
Il existe de nombreuses situations où un champ apparaît à plusieurs endroits dans le même document, voire sur la même page. Ceux-ci doivent tous être labellisés du moment qu'ils ont la même signification. Un exemple, tiré de nombreuses factures de services publics, est le montant total. Il apparaît souvent en haut, dans une liste d'éléments au milieu, ou dans une fiche de paie, en bas, dans une zone qui peut être détachée et envoyée par la poste avec le chèque. Dans cette situation, les trois occurrences devront être labellisées. Ceci est utile car, dans certains cas, s'il y a une erreur d'OCR ou si la mise en page est différente et qu'un champ ne peut pas être identifié, le modèle peut toujours identifier les autres occurrences.
Il est important de noter que ce qui compte, c'est le sens de la valeur, pas la valeur elle-même. Par exemple, sur certaines factures non imposables, le montant net et le montant total ont la même valeur. Mais ce sont clairement des concepts différents. Par conséquent, ils ne devraient pas tous les deux être labellisés comme montant total. Seul celui dont la signification est de représenter le montant total doit être labellisé comme montant total.
Lorsque vous importez un ensemble de données et que vous cochez la case « En faire un ensemble de tests (Make this a Testset) » dans la boîte de dialogue Importer des données (Import Data), cet ensemble de données ne sera pas utilisé par les pipelines d'entraînement dans AI Fabric, mais uniquement par les pipelines d'évaluation. Dans ce cas, il est important que le texte correct soit rempli dans les champs de la barre latérale (ou la barre supérieure dans le cas des champs de colonne). Cela prend beaucoup plus de temps à vérifier pour chaque champ, mais c'est le seul moyen d'obtenir une mesure fiable de la précision du modèle de ML que vous construisez.