- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- FlexiCapture Classifier
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- FlexiCapture Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- 4506T - Paquet ML
- 990 - Paquet ML - Aperçu
- ACORD125 - Paquet ML
- ACORD126 - Paquet ML
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesAustralie - Paquet ML
- FacturesChine - Paquet ML
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Passeports - Paquet ML
- Fiches de paie - Paquet ML
- Bons de commande - Paquet ML
- Reçus - Paquet ML
- RemittanceAdvices - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Prérequis matériels
- Pipelines
- Document Manager
- Services OCR
- Apprentissage profond
- Document Understanding déployé dans Automation Suite
- Document Understanding déployé dans une version AI Center autonome
- Licences
- Activités (Activities)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Guide de l'utilisateur de Document Understanding
Cases à cocher et signatures
Il existe plusieurs types de champs à choix multiples qui utilisent des cases à cocher :
- les cases à cocher mutuellement exclusives
- les cases à cocher non mutuellement exclusives, où vous pouvez sélectionner plusieurs options.
Un autre aspect important est le nombre de choix disponibles pour un champ à choix multiples donné. Dans certains cas, il peut y avoir une seule option, où la case est cochée ou non, tandis que dans d’autres cas, il peut y avoir 10 options, 20 options ou plus, disposées dans une grille ou un tableau, comme sur de nombreux formulaires de santé.
There are two major ways in which you may label these kinds of multiple choice fields.
Prenons un exemple pour comprendre comment labelliser les options. Les formulaires peuvent inclure les options Projet (Project) ou Politique (Policy). Dans ce cas, vous n’avez qu’un seul champ et vous ne labellisez que le mot sélectionné, c’est-à-dire le mot Projet (Project) si la case à côté est cochée ou le mot Politique (Policy) si la case à côté est cochée. Si aucune n’est cochée, vous ne labellisez ni l’un ni l’autre, les deux ne seront pas cochés, et ces documents seront simplement supprimés de l’ensemble d’apprentissage.
Cette approche présente l’avantage de n’avoir qu’un seul champ, ce qui nécessite moins de données. Il présente également l’avantage de ne pas reposer sur une détection réussie des cases à cocher. Si une case à cocher est détectée comme une lettre X, le modèle peut toujours apprendre à reconnaître que cela signifie que l’option à côté est sélectionnée.
L’inconvénient est que vous devez vous assurer que les deux options sont représentées à peu près également, ce qui n’est pas toujours le cas. Potentiellement, dans votre ensemble d’entraînement, 90 % des documents peuvent avoir la case Projet (Project) cochée. Dans ce cas, le modèle ne peut pas fonctionner correctement et cette approche échoue. Le problème s’aggrave lorsque vous avez plus d’options, car certaines d’entre elles sont presque toujours rares. Dans ces cas, vous devrez peut-être créer de faux documents avec les rares options cochées pour équilibrer les choses.
Dans l’exemple ci-dessus, vous pouvez avoir un champ appelé Projet (Project) dans lequel vous cochez toujours la case Projet (Project) et un champ appelé Politique (Policy) dans lequel vous cochez toujours la case Politique (Policy), qu’ils soient cochés ou non. Cela présente l’avantage que l’équilibre compte beaucoup moins, même si l’une des options est cochée 90 % du temps, le modèle apprend toujours à la reconnaître car les cases à cocher sont toujours au même endroit.
L’inconvénient est que vous avez deux champs au lieu d’un. Lorsqu’il y a deux options, cela peut ne pas être un gros problème, mais lorsqu’il y a 10 ou 20 options, avoir 10 ou 20 champs au lieu d’un seul rend beaucoup plus difficile la labellisation, et le modèle est plus difficile à entraîner, nécessitant plus d’entraînement de données.
Un autre inconvénient est que parfois la case à cocher peut ne pas être détectée correctement et vous devrez peut-être ajouter une logique plus complexe dans le workflow pour gérer tous les caractères X, V ou K renvoyés. Dans certains cas, l’OCR peut même fusionner la case à cocher avec le mot à côté, comme Projet X (XProject), nécessitant une logique RPA encore plus complexe pour gérer cette situation.
Les champs à plusieurs valeurs font partie de la version 2022.10 de Document UnderstandingTM. Cela facilite l’étiquetage, il n’est pas affecté par la vérification des choix déséquilibrés et il n’est pas affecté s’il y a un grand nombre d’options. Cependant, cela dépend toujours de la précision de la détection des cases à cocher ou du risque que les cases à cocher soient fusionnées avec les options qui leur sont associées. Il est très difficile de se protéger des erreurs OCR.
À partir de la version 2022.4 de LTS Enterprise, les signatures peuvent être détectées à l'aide de l'OCR de document UiPath. Par conséquent, les modèles d'apprentissage automatique peuvent détecter directement les signatures.
Labelliser une signature comme tout autre champ dans votre document. Une fois détecté par l’OCR de document UiPath, le modèle d’apprentissage automatique apprend à reconnaître le champ comme une signature.