- Démarrage
- Composants de l'infrastructure
- Vue d’ensemble de l’extraction des données
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
- Activités liées à l'extraction de données
- Document Understanding dans AI Center
- Pipelines
- Paquets ML
- Data Manager
- Services OCR
- Licences
- Référence (Reference)
Vue d’ensemble de l’extraction des données
L'extraction de données est un composant de l'infrastructure Document Understanding qui permet d'identifier les informations qui vous intéressent à partir de vos types de documents.
Les informations pouvant faire l'objet de l'extraction de données sont définies dans la taxonomie du projet comme la liste des champs d'un type de document spécifique qui y est défini. Les champs qui n'apparaissent pas dans la taxonomie de votre projet ne peuvent pas être configurés aux fins de l'extraction automatique de données.
L'étape d'extraction de données de l'infrastructure Document Understanding garantit que les extracteurs configurés sont appelés dans le bon ordre pour la liste de champs appropriée ainsi que pour la plage de pages du fichier en cours de traitement. Cela signifie que si, dans le même fichier, deux types de documents ou plus sont identifiés (pour des plages de pages différentes), il est alors recommandé d'exécuter l'étape d'extraction de données plusieurs fois, une fois pour chaque résultat de classification. L'exécution de l'extraction de données d'un résultat de classification avec une certaine plage de pages garantira que les données sont ciblées aux fins de l'extraction uniquement à partir de ces pages et uniquement pour ce type de document.
L'extraction de données est effectuée via l'activité Étendue de l'extraction de données (Data Extraction Scope). Pour extraire des données de documents, vous pouvez utiliser un ou plusieurs extracteurs, car l'activité Étendue (Scope) a pour rôle de configurer et d'exécuter un ou plusieurs algorithmes d'extraction de données ainsi que d'offrir une option de configuration simple et unifiée pour tous vos besoins.
En bref, voici les fonctions de Tester l'étendue des classifieurs (Data Extraction Scope) :
- Fournit à tous les extracteurs (algorithmes d'extraction) les configurations et les entrées nécessaires à leur exécution.
- Accepte un ou plusieurs extracteurs.
- Permet l'activation au niveau du champ, le mappage de la taxonomie et la configuration des paramètres de seuil de confiance minimum au niveau de l'extracteur.
- Les rapports ont extrait les données de manière unifiée, quel que soit l'extracteur qui les a rapportés.
L'activité Étendue de l'extraction de données (Data Extraction Scope) vous permet de la configurer à l'aide de l'assistant Configurer les extracteurs (Configure Extractors). Vous pouvez déterminer
- quels champs sont demandés à chaque extracteur,
- quel est le seuil de confiance minimum des extracteurs de points de données par classifieur,
- quel est le mappage taxonomique, au niveau du type de document, entre la taxonomie du projet et la taxonomie interne du classifieur (le cas échéant).
Vous pouvez mélanger et assortir des extracteurs au moyen d'une approche hybride, dans laquelle vous pouvez demander que l'extraction des champs soit réalisée par différents extracteurs.
Vous pouvez même mettre en œuvre des règles de secours pour l'extraction de données ; par exemple, si un extracteur donné ne rapporte pas une valeur acceptable pour un champ donné, vous pouvez décider d'appeler un extracteur de secours.
Notez que l'ordre des extracteurs dans le périmètre d'extraction de données est important :
- les classifieurs sont exécutés en priorité, de gauche à droite ;
- une valeur extraite pour un champ n'est acceptée que si elle présente une confiance égale ou supérieure au seuil de confiance minimum défini pour cet extracteur ;
- un extracteur ne s'exécute que pour la plage de pages de classification fournie, et uniquement pour les champs qui lui sont demandés selon la configuration Étendue de l'extraction de données (Data Extraction Scope) et les champs qui n'ont pas déjà obtenu un résultat acceptable à partir des extracteurs précédents.
Important :
Les extracteurs ne s'exécutent pas tous tout le temps
Si l'étendue d'extraction de données ne demande aucun champ à un extracteur donné, cet extracteur ne s'exécute alors pas. Cela peut être le cas d'un extracteur non configuré pour un certain type de document entrant, ou d'un extracteur « de secours » pour lequel les extracteurs précédents ont déjà signalé toutes les données attendues.
En fonction des exigences du cas d'utilisation, vous pouvez choisir parmi plusieurs algorithmes d'extraction de données, nommés extracteurs.
Les classifieurs peuvent être trouvés dans les packages UiPath.IntelligentOCR.Activities, ainsi que dans d'autres packages UiPath (UiPath.DocumentUnderstanding.ML.Activities) ou des packages tiers (UiPath.Abbyy.Activities).
Les extracteurs disponibles sont :
- Extracteur basé sur Regex
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
Vous pouvez toujours créer votre propre extracteur à l'aide des contrats de traitement de documents (Document Processing Contrats) publics, vous permettant ainsi de mettre en œuvre n'importe quel algorithme correspondant à votre cas d'utilisation.