Introduction

L'infrastructure UiPath Document Understanding simplifie le traitement des fichiers entrants, de la numérisation des fichiers à la validation des données extraites, le tout dans un environnement ouvert, extensible et polyvalent.

Document Understanding est conçu pour vous aider à combiner différentes approches d'extraction d'informations de plusieurs types de documents. Son principal objectif consiste à rendre le processus d'extraction de données aussi simple que possible : créer un workflow unique qui extraie les données de plusieurs documents.

Avant d'utiliser l'infrastructure Document Understanding, il est recommandé de comprendre les composants suivants de l'infrastructure Document Understanding :

Taxonomie Quels documents doivent être traités et quelles données leur sont demandées ? Permet de définir les types de documents et les informations ciblées aux fins de l'extraction de données (champs) pour chaque type de document, et formalise ces informations dans une structure de taxonomie dédiée. Ces informations de métadonnées sont gérées par le biais de Taxonomy Manager.
Numérisation Que contient ce fichier ? Utilisé pour obtenir le contenu textuel et la structure du document entrant, transformant un fichier en contenu lisible par machine afin qu'il puisse être traité ultérieurement en aval.
Classification de document Quels types de documents de taxonomie se trouvent dans ce fichier ? Utilisé pour déterminer automatiquement les types de documents localisés dans un fichier numérisé.
Administrateur de la classification de document La classification prévue est-elle correcte ? C'est ainsi que je peux l'examiner et la corriger. Utilisé pour assister la validation manuelle et la correction des résultats de la classification automatique ainsi que du fractionnement des documents.
Apprentissage de la classification L'humain a-t-il examiné les données ? C'est ainsi que le robot peut en tirer des leçons. Utilisé pour transmettre les informations validées par l'homme aux classificateurs afin de les utiliser en vue d'améliorer leurs prédictions futures.
Extraction de données Quelles données peuvent être trouvées dans ce document ? Sert à capturer les informations requises relatives au type de document identifié dans le document d'entrée et la plage de pages de classification donnés.
Validation de l'extraction de données Les informations extraites sont-elles correctes ? C'est ainsi que je peux les examiner et les corriger. Sert à assister la validation humaine et la correction des résultats de données extraits automatiquement.
Apprentissage de l'extraction de données L'humain a-t-il examiné les données ? C'est ainsi que le robot peut en tirer des leçons. Sert à transmettre les données extraites validées par l'homme aux extracteurs en vue de les utiliser pour améliorer leurs prévisions d'extraction.
Consommation de données Permet d'exporter les données validées en vue de les utiliser.
Logique de mesure et de charge Utilisée pour expliquer la consommation d'unités par page pour chaque service disponible.

Le diagramme ci-dessous présente les composants du cadre de Document Understanding ainsi que leurs relations :

L'infrastructure Document Understanding se trouve dans le package UiPath.IntelligentOCR.Activities. Une fois le package UiPath.IntelligentOCR.Activities installé, l'assistant Taxonomy Manager apparaît dans le ruban supérieur de UiPath Studio. Ce même package contient toutes les activités de l'infrastructure Document Understanding de base.

Les activités d'étendue (Classer l'étendue du document (Classify Document Scope), Étendue de l'extraction de données (Data Extraction Scope), Tester l'étendue des classifieurs (Train Classifiers Scope), Tester l'étendue des extracteurs (Train Extractors Scope) qui font partie de l'infrastructure Document Understanding vous permettent d'utiliser tous les algorithmes de classification de documents et d'extraction de données qui correspondent à votre cas d'utilisation, puis d'entraîner ces algorithmes.

L'infrastructure Document Understanding peut être utilisée non seulement avec les classifieurs et extracteurs prêts à l'emploi, mais également avec tous ceux qui ont été personnalisés au préalable. Ceux-ci peuvent être créés à l'aide des classes abstraites du package UiPath.DocumentProcessing.Contracts et peuvent être mis en œuvre en tant qu'activités de classification ou d'extraction de données. Des moteurs de reconnaissance optique de caractères personnalisés peuvent également être créés à l'aide des classes abstraites du package UiPath.OCR.Contracts.