document-understanding

2023.4

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Guide de l'utilisateur de Document Understanding

PRODUIT :

Dernière mise à jour 4 déc. 2025

Cases à cocher et signatures

Cases à cocher

Il existe plusieurs types de champs à choix multiples qui utilisent des cases à cocher :

les cases à cocher mutuellement exclusives
les cases à cocher non mutuellement exclusives, où vous pouvez sélectionner plusieurs options.

Un autre aspect important est le nombre de choix disponibles pour un champ à choix multiples donné. Dans certains cas, il peut y avoir une seule option, où la case est cochée ou non, tandis que dans d’autres cas, il peut y avoir 10 options, 20 options ou plus, disposées dans une grille ou un tableau, comme sur de nombreux formulaires de santé.

Il existe deux manières principales de labelliser ces types de champs à choix multiples.

Label the options

Prenons un exemple pour comprendre comment labelliser les options. Les formulaires peuvent inclure les options Projet (Project) ou Politique (Policy). Dans ce cas, vous n’avez qu’un seul champ et vous ne labellisez que le mot sélectionné, c’est-à-dire le mot Projet (Project) si la case à côté est cochée ou le mot Politique (Policy) si la case à côté est cochée. Si aucune n’est cochée, vous ne labellisez ni l’un ni l’autre, les deux ne seront pas cochés, et ces documents seront simplement supprimés de l’ensemble d’apprentissage.

Cette approche présente l’avantage de n’avoir qu’un seul champ, ce qui nécessite moins de données. Il présente également l’avantage de ne pas reposer sur une détection réussie des cases à cocher. Si une case à cocher est détectée comme une lettre X, le modèle peut toujours apprendre à reconnaître que cela signifie que l’option à côté est sélectionnée.

L’inconvénient est que vous devez vous assurer que les deux options sont représentées à peu près également, ce qui n’est pas toujours le cas. Potentiellement, dans votre ensemble d’entraînement, 90 % des documents peuvent avoir la case Projet (Project) cochée. Dans ce cas, le modèle ne peut pas fonctionner correctement et cette approche échoue. Le problème s’aggrave lorsque vous avez plus d’options, car certaines d’entre elles sont presque toujours rares. Dans ces cas, vous devrez peut-être créer de faux documents avec les rares options cochées pour équilibrer les choses.

Label the checkboxes, with separate field for each checkbox

Dans l'exemple précédent, vous pouvez avoir un champ appelé Projet dans lequel vous étiquetez toujours la case à cocher de Projet, et un champ appelé Politique dans lequel vous étiquetez toujours la case à cocher de Politique, que ces cases soient cochées ou non. Cela présente l'avantage que l'équilibre compte beaucoup moins : même si l'une des options est cochée 90 % du temps, le modèle apprend toujours à la reconnaître, car les cases à cocher sont toujours au même endroit.

L’inconvénient est que vous avez deux champs au lieu d’un. Lorsqu’il y a deux options, cela peut ne pas être un gros problème, mais lorsqu’il y a 10 ou 20 options, avoir 10 ou 20 champs au lieu d’un seul rend beaucoup plus difficile la labellisation, et le modèle est plus difficile à entraîner, nécessitant plus d’entraînement de données.

Un autre inconvénient est que parfois la case à cocher peut ne pas être détectée correctement et vous devrez peut-être ajouter une logique plus complexe dans le workflow pour gérer tous les caractères X, V ou K renvoyés. Dans certains cas, l’OCR peut même fusionner la case à cocher avec le mot à côté, comme Projet X (XProject), nécessitant une logique RPA encore plus complexe pour gérer cette situation.

Étiqueter les options avec un seul champ à plusieurs valeurs

Les champs à plusieurs valeurs font partie de la version 2022.10 de Document Understanding^TM. Cela facilite l’étiquetage, il n’est pas affecté par la vérification des choix déséquilibrés et il n’est pas affecté s’il y a un grand nombre d’options. Cependant, cela dépend toujours de la précision de la détection des cases à cocher ou du risque que les cases à cocher soient fusionnées avec les options qui leur sont associées. Il est très difficile de se protéger des erreurs OCR.

Étiqueter les options avec un seul champ à plusieurs valeurs

Cela facilite également la labellisation, est moins sensible aux erreurs de détection de case à cocher, mais peut être plus sensible aux options déséquilibrées, tout comme la première option.

Détection de signatures

À partir de la version 2022.4 de LTS Enterprise, les signatures peuvent être détectées à l'aide de l'OCR de document UiPath. Par conséquent, les modèles d'apprentissage automatique peuvent détecter directement les signatures.

Labelliser une signature comme tout autre champ dans votre document. Une fois détecté par l’OCR de document UiPath, le modèle d’apprentissage automatique apprend à reconnaître le champ comme une signature.

Remarque : pour une analyse de signature plus approfondie, vous pouvez également utiliser le modèle de comparaison de signatures qui réside dans les paquets ML d’analyse d’image UiPath.

Sommaire de la page