Introduction

L'infrastructure UiPath Document Understanding simplifie le traitement des fichiers entrants, de la numérisation des fichiers à la validation des données extraites, le tout dans un environnement ouvert, extensible et polyvalent.

Document Understanding est conçu pour vous aider à combiner différentes approches d'extraction d'informations de plusieurs types de documents. Son principal objectif consiste à rendre le processus d'extraction de données aussi simple que possible : créer un workflow unique qui extraie les données de plusieurs documents.

Avant d'utiliser l'infrastructure Document Understanding, il est recommandé de comprendre les composants suivants de l'infrastructure Document Understanding :

What documents need to be processed and what data is required from them? Used to define the document types and the pieces of information targeted for data extraction (fields) for each document type, and formalizes this information into a dedicated Taxonomy structure. This metadata information is managed through the .
Que contient ce fichier ? Utilisé pour obtenir le contenu textuel et la structure du document entrant, transformant un fichier en contenu lisible par machine afin qu'il puisse être traité ultérieurement en aval.
Quels types de documents de taxonomie se trouvent dans ce fichier ? Utilisé pour déterminer automatiquement les types de documents localisés dans un fichier numérisé.
La classification prévue est-elle correcte ? C'est ainsi que je peux l'examiner et la corriger. Utilisé pour assister la validation manuelle et la correction des résultats de la classification automatique ainsi que du fractionnement des documents.
L'humain a-t-il examiné les données ? C'est ainsi que le robot peut en tirer des leçons. Utilisé pour transmettre les informations validées par l'homme aux classificateurs afin de les utiliser en vue d'améliorer leurs prédictions futures.
Quelles données peuvent être trouvées dans ce document ? Sert à capturer les informations requises relatives au type de document identifié dans le document d'entrée et la plage de pages de classification donnés.
Les informations extraites sont-elles correctes ? C'est ainsi que je peux les examiner et les corriger. Sert à assister la validation humaine et la correction des résultats de données extraits automatiquement.
L'humain a-t-il examiné les données ? C'est ainsi que le robot peut en tirer des leçons. Sert à transmettre les données extraites validées par l'homme aux extracteurs en vue de les utiliser pour améliorer leurs prévisions d'extraction.
Permet d'exporter les données validées en vue de les utiliser.
Logique de mesure et de charge Utilisée pour expliquer la consommation d'unités par page pour chaque service disponible.

Le diagramme ci-dessous présente les composants du cadre de Document Understanding ainsi que leurs relations :

L'infrastructure Document Understanding se trouve dans le package UiPath.IntelligentOCR.Activities . Une fois le package UiPath.IntelligentOCR.Activities installé, l'assistant Taxonomy Manager apparaît dans le ruban supérieur de UiPath Studio. Ce même package contient toutes les activités de l’infrastructure Document Understanding de base.

Les activités d'étendue (Classer l'étendue du document (Classify Document Scope), Étendue de l'extraction de données (Data Extraction Scope), Tester l'étendue des classifieurs (Train Classifiers Scope), Tester l'étendue des extracteurs (Train Extractors Scope) qui font partie de l'infrastructure Document Understanding vous permettent d'utiliser tous les algorithmes de classification de documents et d'extraction de données qui correspondent à votre cas d'utilisation, puis d'entraîner ces algorithmes.

L'infrastructure Document Understanding peut être utilisée non seulement avec les classifieurs et extracteurs prêts à l'emploi, mais également avec tous ceux qui ont été personnalisés au préalable. Ceux-ci peuvent être créés à l'aide des classes abstraites du package UiPath.DocumentProcessing.Contracts et peuvent être mis en œuvre en tant qu'activités de classification ou d'extraction de données. Des moteurs de reconnaissance optique de caractères personnalisés peuvent également être créés à l'aide des classes abstraites du package UiPath.OCR.Contracts.