document-understanding

2020.10

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Obsolète

Guide de l'utilisateur de Document Understanding

PRODUIT :

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

Dernière mise à jour 4 févr. 2025

Cases à cocher et signatures

Cases à cocher

Dans le contexte d'un modèle d'extraction ML, une case à cocher n'est pas une valeur réelle, mais un moyen de sélectionner un certain morceau de texte.

Pour cette raison, le mot situé à côté devient le point de focalisation, pas la case à cocher. Et c'est précisément le but de la case à cocher ; d'agir comme un point d'ancrage pour un mot spécifique.

Par conséquent, pour entraîner un modèle ML, vous devez labelliser le mot, pas la case à cocher.

Dans certains cas, la case à cocher n'est pas détectée. Par exemple, l'OCR pourrait le lire comme un X, ou peut-être qu'il s'agit simplement d'une marque manuscrite qui n'est pas du tout captée. Le modèle ML peut apprendre et associer toutes ces situations avec le mot à côté de la marque.

Ainsi, il est plus efficace d'entraîner un modèle à reconnaître un mot, quelle que soit la manière dont il est sélectionné : avec une case à cocher, avec un X, ou avec une marque manuscrite (cerclée, soulignée, etc.).

Cases à cocher à option unique

Pour l'exemple ci-dessus, vous pouvez créer trois champs dans le Data Manager comme suit :

condition-employment (labelliser le mot OUI) ;
condition-auto-accident (labelliser le mot OUI) ;
condition-other-accident (labelliser le mot NON).

Le modèle ML apprend à reconnaître ces mots, qu'ils soient marqués par des cases à cocher, des X ou simplement entourés au stylo. Pour ce faire, vous pouvez utiliser UiPath Document OCR qui peut reconnaître même les cases à cocher.

Cases à cocher sans libellé

Dans certains cas, aucun libellé n'est associé à une case à cocher. Par exemple, lorsque les cases à cocher font partie des tableaux.

Voici un exemple typique :

Dans ce cas, il est nécessaire de labelliser les cases. L'extracteur renverra la valeur de string de la case à cocher qui est l'un de ces deux caractères :

Ces deux caractères peuvent être copiés et collés comme n'importe quel autre et peuvent être utilisés dans les workflows pour vérifier si une case à cocher a été renvoyée sous la forme checked ou unchecked. De plus, le framework IntelligentOCR sait les reconnaître, surtout si un champ est défini comme https://docs.uipath.com/fr/activities/docs/about-the-intelligent-ocr-activities-pack :

si l'extracteur renvoie ☒, cela correspond à OUI ;
si l'extracteur renvoie ☐, cela correspond à NON.

Dans les cas où une case non cochée est renvoyée sous la forme O ou D, ou lorsqu'une case cochée est renvoyée sous la forme X, V, K ou R, celles-ci peuvent également être incluses dans la logique de workflow RPA pour rendre le workflow plus efficace lorsque ces types d'OCR des erreurs se produisent.

Détection de signatures

Les signatures sont des caractéristiques visuelles qui ne sont détectées par aucun moteur OCR, de sorte qu'un modèle ML ne peut pas les détecter directement.

Cependant, les modèles UiPath ML apprennent en regardant à la fois les mots et les pixels sur l'image. Il est possible de faire une détection de signature en utilisant cette méthode.

Prenons comme exemple le formulaire ci-dessous.

À la fin de la page, à côté de la signature, il y a le texte Signature of US person. Peu importe le texte, tant qu'il est suffisamment proche de la signature (lorsque la signature existe). Traiter une signature est similaire à traiter une case à cocher - voir la section Cases à cocher ci-dessus.

Vous pouvez créer un champ de texte appelé signature et lorsque le document a une signature, labellisez les mots Signature of US person comme champ de signature. Lorsque le document n'a pas de signature, vous laissez le champ vide.

Ensuite, vous devez vous assurer que votre ensemble d'entraînement dispose d'environ la moitié des documents avec une signature et de l'autre moitié sans. Cela peut être 60/40 % aussi, mais pas 80/20 % ou 90/10 %. De plus, vous devez avoir au moins 20 à 30 échantillons de chaque pour que le modèle puisse apprendre cela.

De cette façon, vous pouvez utiliser le modèle ML pour effectuer une détection de signature.

Sommaire de la page