- Vue d'ensemble (Overview)
- Document Processing Contracts
- Notes de publication
- À propos des contrats de traitement de documents
- Classe Zone
- Interface ActivitéIPersisted
- Classe PrettyBoxConverter
- Interface ActivitéIClassifier
- Interface FournisseurIClassifieurCapacités
- Classe TypeDocumentClassifieur
- Classe RésultatClassifieur
- Classe ActivitéCodeClassifieur
- Classe ActivitéClassifieurNatif
- Classe ActivitéClassifieurCodeAsync
- Classe CapacitéClassifieurTypeDocument
- ContentValidationData Class
- EvaluatedBusinessRulesForFieldValue Class
- EvaluatedBusinessRuleDetails Class
- Classe ActivitéExtracteurCodeAsync
- Classe ActivitéExtracteurCode
- Classe ExtracteurTypeDocument
- Classe ExtracteurDocumentTypeCapacités
- Classe ExtracteurChampCapacités
- Classe ActivitéExtracteurNatif
- Classe ExtracteurRésultat
- FieldValue Class
- FieldValueResult Class
- Interface FournisseurICapabilities
- Interface ActivitéIExtractor
- Classe ChargeUtileExtracteur
- Énumération PrioritéActionDocument
- Classe DocumentActionData
- Énumération StatutActionDocument
- Énumération TypeActionDocument
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe DonnéesUtilisateur
- Classe Documents
- Classe RésultatDivisionDocument
- Classe ExtensionDom
- Classe Page
- Classe SectionPage
- Classe Polygone
- Classe ConvertisseurPolygones
- Classe de métadonnées
- Classe GroupeMot
- Classe Mot
- Énumération SourceTraitement
- Classe CelluleRésultatsTable
- Classe ValeurTableRésultats
- Classe InformationsColonnesTableRésultats
- Classe TableRésultats
- Énumération Rotation
- Rule Class
- RuleResult Class
- RuleSet Class
- RuleSetResult Class
- Énumération TypeSection
- Énumération TypeGroupeMot
- ProjectionTexteIDocument Interface
- Classe RésultatClassification
- Classe RésultatExtraction
- Classe ResultatsDocument
- Classe ResultatsLimitesDocument
- Classe ResultatsDonnéesPoint
- Classe RésultatsValeur
- Classe ResultatsContenuRéference
- Classe ResultatsValeurJetons
- Classe ResultatsChampDérivé
- Énumération ResultatsSourceDonnées
- Classe ResultatsConstantes
- Classe ChampValeurSimple
- Classe ValeurChampTable
- Classe GroupeDocument
- Classe DocumentTaxonomie
- Classe TypeDocument
- Classe Champ
- Énumération TypeChamp
- FieldValueDetails Class
- Classe InfoLangage
- Classe SaisieMétadonnées
- Énumération TypeTexte
- Classe TypeFieldTypeField Class
- Interface ActivitéISuivi
- ITrainableActivity Interface
- Interface ActivitéClassifieurITrainable
- Interface ActivitéExtracteurITrainable
- Classe ActivitéFormationClassifieurCodeAsync
- Classe ActivitéFormationClassifieurCode
- Classe ActivitéFormationClassifieurNatif
- Classe ActivitéFormationExtracteurCodeAsync
- Classe ActivitéFormationExtracteurCode
- Classe ActivitéFormationExtracteurNative
- Classe BasicDataPoint : aperçu
- Classe GestionnaireRésultatExtraction - aperçu
- Document Understanding ML
- Serveur local OCR Document Understanding
- Document Understanding
- Notes de publication
- À propos du package d’activités Document Understanding
- Compatibilité du projet
- Configuration de la connexion externe
- Définir le mot de passe du PDF
- Merge PDFs
- Get PDF Page Count
- Extraire le texte PDF (Extract PDF Text)
- Extract PDF Images
- Extract PDF Page Range
- Extraire les données du document
- Create Validation Task and Wait
- Attendre la tâche de validation et reprendre
- Create Validation Task
- Classer un document (Classify Document)
- Créer une tâche de validation de classification (Create Classification Validation Task)
- Créer une tâche de validation de classification et attendre (Create Classification Validation Task and Wait)
- Attendre la tâche de validation de la classification et reprendre
- IntelligentOCR
- Notes de publication
- À propos du package d'activités IntelligentOCR
- Compatibilité du projet
- Load Taxonomy
- Digitize Document
- Classify Document Scope
- Keyword Based Classifier
- Classifieur de projet Document Understanding (Document Understanding Project Classifier)
- Intelligent Keyword Classifier
- Create Document Classification Action
- Créer une action de validation de document (Create Document Validation Action)
- Retrieve Document Validation Artifacts
- Attendre l'action de classification du document et reprendre
- Tester l'étendue des classifieurs
- Outil d'entraînement de classifieur basé sur des mots-clés
- Intelligent Keyword Classifier Trainer
- Data Extraction Scope
- Extracteur de projet Document Understanding (Document Understanding Project Extractor)
- Entraîneur d’extracteur de projet Document Understanding
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Caviarder le document
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Tester l'étendue des extracteurs
- Export Extraction Results
- Extracteur d'apprentissage automatique
- Machine Learning Extractor Trainer
- Machine Learning Classifier
- Machine Learning Classifier Trainer
- Classifieur génératif
- Extracteur génératif
- Configuration de l'authentification
- Valider des documents avec des actions App
- Valider manuellement des documents numérisés
- Extraction de données basée sur des ancres à l'aide de l'Extracteur de formulaires intelligent
- Station de validation
- Activités génératives - Bonnes pratiques
- Extracteur génératif - Bonnes pratiques
- Classifieur génératif - Bonnes pratiques
- Services ML
- OCR
- Contrats OCR
- Notes de publication
- À propos des contrats OCR
- Compatibilité du projet
- Interface ActivitéIOCR
- Classe OCRCodeAsync
- Classe ActivitéCodeOCR
- Classe ActivitéOCRNatif
- Classe Caractère
- Classe RésultatOCR
- Classe Mot
- Énumération StylesPolice
- Énumération RotationOCR
- Classe OCRCapabilities
- Classe BaseCaptureOCR
- Classe UsineCaptureOCR
- Classe BaseContrôleCapture
- Énumération UtilisationCaptureMoteur
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Non listé] Abbyy
- Notes de publication
- À propos du package d'activités Abbyy
- Compatibilité du projet
- Reconnaissance optique des caractères ABBYY (ABBYY OCR)
- Reconnaissance optique des caractères ABBYY Cloud (ABBYY Cloud OCR)
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Classer un document (Classify Document)
- Traiter le document (Process Document)
- Valider le document (Validate Document)
- Exporter le document (Export Document)
- Obtenir le champ (Get Field)
- Obtenir la table (Get Table)
- Prepare Validation Station Data
- [Non listé] Abbyy intégré
Activités Document Understanding
UiPath.IntelligentOCR.Activities contient l'infrastructure permettant d'activer les flux de traitement de documents à l'aide d'une approche complète, ouverte et extensible.
Lors de l'installation du package UiPath.IntelligentOCR.Activities , le package UiPath.DocumentUnderstanding.ML.Activities est automatiquement installé pour effectuer la classification et l'extraction basées sur ML.
Limites connues
Si vous utilisez des activités de type « Attendre » (Wait for) qui suspendent les flux de travail et que vous travaillez avec des variables DataTable , il est crucial que les variables DataTable soient sérialisables. Par exemple, si une variable DataTable est initialisée avec new System.Data.DataTable, elle devient non sérialisable, ce qui peut entraîner l’échec de l’exécution de votre projet. Pour éviter cela, vous pouvez soit : laisser la valeur par défaut de la variable DataTable vide, soit attribuer un nom à la variable DataTable , par exemple : new System.Data.DataTable("MyTable").
Remplacer des versions supprimées
Le tableau suivant indique les versions de package qui ont été supprimées ainsi que la version recommandée à utiliser à la place.
Tableau 1. Versions supprimées et leurs remplacements recommandés
| Version recommandée | |
|---|---|
| Aperçu 4.3.0 | Aperçu 4.4.0 |
| 2.1.0 | 2.2.0 |
| 1.4.0 | 1.5.0 |
| 1.2.0 | 1.2.1 |
Important
- À partir de la version v6.19.0 , lors de l'installation du package UiPath.IntelligentOCR.Activities dans un projet, le package UiPath.DocumentUnderstanding.ML.Activities est également automatiquement installé et vous n'avez pas besoin de l'installer séparément.
- Si vous utilisez UiPath® Studio 2023.4.4 ou une version antérieure, assurez-vous d’installer la dernière version de Windows .NET 6.0 Desktop Runtime.
Compatibilité des versions
La mise à jour de UiPath.IntelligentOCR.Activities nécessite également de mettre à jour le package UiPath.UIAutomation.Activities ainsi que le package UiPath.OCR.Activities s'ils sont inclus dans le projet.
UiPath.IntelligentOCR.Activities et UiPath.DocumentUnderstanding.Activities ne doivent pas être utilisés conjointement dans un même projet. Le package UiPath.IntelligentOCR.Activities doit être utilisé avec les workflows Windows (ou Legacy), tandis que le package UiPath.DocumentUnderstanding.Activities doit être utilisé avec les workflows multiplateformes.
Avant d'utiliser la fonctionnalité Surveiller, tenez compte des éléments suivants :
- Seul UiPath.DocumentUnderstanding.Activities v 2.7.0 ou les versions plus récentes prennent en charge Surveillance.
- Seules les versions v6.20 ou ultérieures d'IntelligentOCR.Activities incluent l'activité Extracteur de projet Document Understanding qui prend en charge Surveiller
Formats pris en charge
Le package d’activités IntelligentOCR peut prendre en charge l’un des types de fichiers suivants : .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp et .pdf.
Prise en charge du langage de projet C#
À partir de la version 4.10.0, ce package d'activité est validé pour une utilisation dans les projets C#.
Fonctionnalités
Cette section présente les multiples fonctionnalités du package Intelligent.OCR.
Numériser les documents
Pour cela, vous pouvez utiliser l'activité Numériser le document . Cela permet de récupérer le texte de n'importe quel PDF ou image, en utilisant, uniquement si nécessaire, le moteur OCR de votre choix.
Au fur et à mesure que les documents sont traités un par un, ils passent par le processus de numérisation. La différence pour les documents non numériques (numérisés) est que vous devez appliquer le moteur OCR de votre choix. Les sorties de cette étape sont le modèle d'objet de document et une variable de chaîne contenant tout le texte du document et sont transmises aux étapes suivantes.
Classer les documents
Vous pouvez y parvenir à l'aide de l'activité Classer un document . Cela permet d'identifier le type de document d'un fichier en utilisant un algorithme de classification.
Après numérisation, le document est classé. Si vous travaillez avec plusieurs types de documents dans le même projet, pour extraire correctement les données, vous devez savoir avec quel type de document vous travaillez. L'important est que vous puissiez utiliser plusieurs classifieurs dans la même étendue, configurer les classifieurs et, plus tard dans l'infrastructure, les entraîner. Les résultats de la classification aident à appliquer la bonne stratégie d'extraction.
La liste suivante indique les classifieurs disponibles :
- L’activité Classifieur basé sur des mots-clés est le premier classifieur de ce type, ciblant la classification pour les documents intitulés.
- L’activité Classifieur de mots clés intelligents peut non seulement classer, mais également « plier » les fichiers contenant plusieurs types de documents.
- L'activité Classifieur d'apprentissage automatique (Machine Learning Classifier) peut classer vos fichiers à l'aide d'un modèle ML puissant, que vous pouvez entraîner en fonction de vos besoins.
- L’activité Classifieur génératif vous permet de classer les documents à l’aide de modèles génératifs.
Valider la classification automatique
Pour cela, vous pouvez utiliser l'activité Attended Present Classification Station qui présente une interface utilisateur spécifique au traitement des documents afin de valider et de corriger les sorties de la classification automatique.
En particulier pour les cas d'utilisation dans lesquels le fractionnement de fichiers est impliqué, l'utilisation de l'étape de validation de la classification humaine est fortement recommandée, afin de s'assurer que le traitement en aval pour l'extraction de données fonctionne correctement.
Une alternative à l'activité Attended est disponible via l'utilisation de workflows de longue durée, qui sont conçus pour permettre de manière optimale la collaboration entre robots et humains. Les activités Créer une action de classification de document et Attendre une action de classification de document et reprendre permettent ce scénario.
Entraîner les classifieurs
Pour cela, vous pouvez utiliser l'activité Tester l'étendue des classifieurs . Cela permet de fermer la boucle de rétroaction à tout algorithme de classification capable d'apprendre. Glissez et déposez vos outils d’entraînement de classifieurs dans cette activité Étendue et activez-les à l’aide de l’assistant Configurer les classifieurs pour vous assurer que les informations validées par les humains via la Station de classification ou la Station de validation sont utilisées par vos classifieurs afin d’améliorer leurs propres performances.
La classification est aussi efficace que les classifieurs utilisés. Si un document n'a pas été classé correctement, cela signifie qu'il était inconnu des classifieurs actifs. L'infrastructure offre la possibilité d'entraîner les classifieurs afin d'améliorer la reconnaissance des classes de documents.
Voici une liste des classifieurs disponibles :
- Le Keyword Based Classifier Trainer est l'activité d'entraînement associée au Keyword Based Classifier.
- Le Classifieur de mots clés intelligents active la boucle de rétroaction pour le Classifieur de mots clés intelligents.
- Le Machine Learning Classifier Trainer est l'activité d'entraînement associée au Machine Learning Classifier.
Extraire des données de documents
Vous pouvez y parvenir à l'aide de l'activité Étendue de l'extraction de données . Elle permet d’utiliser n’importe quel algorithme d’extraction de données pour identifier différents champs dans un document classifié.
L'extraction consiste à obtenir uniquement les données qui vous intéressent à partir d'un type de document donné. Par exemple, extraire des données spécifiques d'un document de 5 pages est assez fastidieux si vous souhaitez le faire avec une manipulation de chaînes. Dans cette infrastructure, vous pouvez utiliser différents extracteurs, pour les différentes structures de document, dans la même étendue d'extraction de données. Les résultats de l'extraction sont transmis pour validation.
Voici une liste des extracteurs disponibles :
- L' extracteur basé sur RegEx est un extracteur de données de base qui applique une correspondance d'expressions régulières afin d'identifier les meilleurs candidats à un champ spécifique.
- L' Extracteur de formulaires utilise des modèles prédéfinis pour permettre le traitement de documents de formulaire structurés et fixes.
- L’ Extracteur d’apprentissage automatique exploite la puissance de l’IA et de l’apprentissage automatique pour identifier les informations dans les documents structurés ou semi-structurés en utilisant l’un des services publics d’extraction de données UiPath® ou en appelant des modèles d’apprentissage automatique entraînés personnalisés que vous pouvez créer et héberger AI Center.
- L’ extracteur génératif vous permet d’extraire des documents à l’aide de modèles génératifs.
Valider les résultats de l'extraction automatique des données
Vous pouvez y parvenir à l'aide de l'activité Attended Present Validation Station , qui présente une interface utilisateur spécifique au traitement des documents pour la validation et la correction des données.
- The extracted data can be validated by a human user through the Validation Station. A best practice is to build logic around the decision of adding or not a human validation step, with rules depending on the specific use case to be implemented. Validation results can then be exported and used in further automation activities.
- Vous pouvez également activer la validation humaine via des workflows de longue durée, de façon à optimiser la collaboration entre robots et humains, à l’aide des activités Créer une action de validation de document (Create Document Validation Action) et Attendre l’action de validation du document et reprendre (Wait for Document Validation Action and Resume).
Extracteurs de train
Pour cela, vous pouvez utiliser l'activité Tester l'étendue des extracteurs . Cela permet de fermer la boucle de rétroaction à tout algorithme d'extraction de données capable d'apprendre. Glissez et déposez vos entraîneurs d’extracteurs dans cette activité Étendue et activez-les à l’aide de l’assistant Configurer les extracteurs pour vous assurer que les informations validées par les humains via la Station de validation sont utilisées par vos extracteurs afin d’améliorer leurs propres performances.
L'extraction est aussi efficace que les extracteurs utilisés. Si les valeurs de champ n'ont pas été extraites correctement, cela signifie qu'elles étaient inconnues des extracteurs actifs. L'infrastructure offre la possibilité d'entraîner les extracteurs afin d'améliorer la reconnaissance des valeurs de champ.
Le Machine Learning Extractor Trainer ferme la boucle de rétroaction pour l'extraction de données basée sur ML, en collectant les données requises pour réentraîner un modèle d'apprentissage automatique hébergé dans AI Center. Cette activité fonctionne de pair avec l'activité Extracteur d'apprentissage automatique .
Exporter les informations extraites
Pour cela, vous pouvez utiliser l'activité Exporter les résultats d'extraction . Cela vous permet d'exporter la structure complexe des données extraites vers un DataSet (Collection de TableDonnées) simple.
Une fois vos informations validées, vous pouvez les utiliser telles quelles ou les enregistrer dans un format DataTable pouvant être converti très facilement en fichier Excel.
Le package UiPath.IntelligentOCR.Activities est compatible avec toute activité de classification ou d’extraction de données personnalisée basée sur le package public UiPath.DocumentProcessing.Contracts . Il offre une flexibilité totale pour créer votre propre algorithme spécifique à votre cas d'utilisation, ainsi que pour l'intégrer à toute solution tierce pour la classification de documents et l'extraction de données.
Les versions suivantes du paquet ont été supprimées du flux officiel. Si vous rencontrez des problèmes, veuillez contacter nos équipes d’assistance.
- Limites connues
- Remplacer des versions supprimées
- Important
- Compatibilité des versions
- Formats pris en charge
- Prise en charge du langage de projet C#
- Fonctionnalités
- Numériser les documents
- Classer les documents
- Valider la classification automatique
- Entraîner les classifieurs
- Extraire des données de documents
- Valider les résultats de l'extraction automatique des données
- Extracteurs de train
- Exporter les informations extraites