- Vue d'ensemble (Overview)
- Document Processing Contracts
- Notes de publication
- À propos des contrats de traitement de documents
- Classe Zone
- Interface ActivitéIPersisted
- Classe PrettyBoxConverter
- Interface ActivitéIClassifier
- Interface FournisseurIClassifieurCapacités
- Classe TypeDocumentClassifieur
- Classe RésultatClassifieur
- Classe ActivitéCodeClassifieur
- Classe ActivitéClassifieurNatif
- Classe ActivitéClassifieurCodeAsync
- Classe CapacitéClassifieurTypeDocument
- Classe ActivitéExtracteurCodeAsync
- Classe ActivitéExtracteurCode
- Classe ExtracteurTypeDocument
- Classe ExtracteurDocumentTypeCapacités
- Classe ExtracteurChampCapacités
- Classe ActivitéExtracteurNatif
- Classe ExtracteurRésultat
- Interface FournisseurICapabilities
- Interface ActivitéIExtractor
- Classe ChargeUtileExtracteur
- Énumération PrioritéActionDocument
- Classe DocumentActionData
- Énumération StatutActionDocument
- Énumération TypeActionDocument
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe DonnéesUtilisateur
- Classe Documents
- Classe RésultatDivisionDocument
- Classe ExtensionDom
- Classe Page
- Classe SectionPage
- Classe Polygone
- Classe ConvertisseurPolygones
- Classe de métadonnées
- Classe GroupeMot
- Classe Mot
- Énumération SourceTraitement
- Classe CelluleRésultatsTable
- Classe ValeurTableRésultats
- Classe InformationsColonnesTableRésultats
- Classe TableRésultats
- Énumération Rotation
- Énumération TypeSection
- Énumération TypeGroupeMot
- ProjectionTexteIDocument Interface
- Classe RésultatClassification
- Classe RésultatExtraction
- Classe ResultatsDocument
- Classe ResultatsLimitesDocument
- Classe ResultatsDonnéesPoint
- Classe RésultatsValeur
- Classe ResultatsContenuRéference
- Classe ResultatsValeurJetons
- Classe ResultatsChampDérivé
- Énumération ResultatsSourceDonnées
- Classe ResultatsConstantes
- Classe ChampValeurSimple
- Classe ValeurChampTable
- Classe GroupeDocument
- Classe DocumentTaxonomie
- Classe TypeDocument
- Classe Champ
- Énumération TypeChamp
- Classe InfoLangage
- Classe SaisieMétadonnées
- Énumération TypeTexte
- Classe TypeFieldTypeField Class
- Interface ActivitéISuivi
- ITrainableActivity Interface
- Interface ActivitéClassifieurITrainable
- Interface ActivitéExtracteurITrainable
- Classe ActivitéFormationClassifieurCodeAsync
- Classe ActivitéFormationClassifieurCode
- Classe ActivitéFormationClassifieurNatif
- Classe ActivitéFormationExtracteurCodeAsync
- Classe ActivitéFormationExtracteurCode
- Classe ActivitéFormationExtracteurNative
- Numériseur de Document Understanding
- Document Understanding ML
- Serveur local OCR Document Understanding
- Processus Document Understanding : modèle Studio
- Document Understanding
- Notes de publication
- About the Document Understanding activity package
- Compatibilité du projet
- Données du document
- Définir le mot de passe du PDF
- Merge PDFs
- Get PDF Page Count
- Extraire le texte PDF (Extract PDF Text)
- Extract PDF Images
- Extract PDF Page Range
- Extraire les données du document
- Create Validation Task and Wait
- Attendre la tâche de validation et reprendre
- Create Validation Task
- Classer un document (Classify Document)
- Créer une tâche de validation de classification (Create Classification Validation Task)
- Créer une tâche de validation de classification et attendre (Create Classification Validation Task and Wait)
- Attendre la tâche de validation de la classification et reprendre
- IntelligentOCR
- Notes de publication
- About the IntelligentOCR activity package
- Compatibilité du projet
- Load Taxonomy
- Digitize Document
- Classify Document Scope
- Keyword Based Classifier
- Intelligent Keyword Classifier
- Present Classification Station
- Create Document Classification Action
- Wait For Document Classification Action And Resume
- Tester l'étendue des classifieurs
- Outil d'entraînement de classifieur basé sur des mots-clés
- Intelligent Keyword Classifier Trainer
- Data Extraction Scope
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Tester l'étendue des extracteurs
- Export Extraction Results
- Services ML
- OCR
- Contrats OCR
- Notes de publication
- À propos des contrats OCR
- Compatibilité du projet
- Interface ActivitéIOCR
- Classe OCRCodeAsync
- Classe ActivitéCodeOCR
- Classe ActivitéOCRNatif
- Classe Caractère
- Classe RésultatOCR
- Classe Mot
- Énumération StylesPolice
- Énumération RotationOCR
- Classe OCRCapabilities
- Classe BaseCaptureOCR
- Classe UsineCaptureOCR
- Classe BaseContrôleCapture
- Énumération UtilisationCaptureMoteur
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Non listé] Abbyy
- Notes de publication
- À propos du package d'activités Abbyy
- Compatibilité du projet
- Reconnaissance optique des caractères ABBYY (ABBYY OCR)
- Reconnaissance optique des caractères ABBYY Cloud (ABBYY Cloud OCR)
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Classer un document (Classify Document)
- Traiter le document (Process Document)
- Valider le document (Validate Document)
- Exporter le document (Export Document)
- Obtenir le champ (Get Field)
- Obtenir la table (Get Table)
- Prepare Validation Station Data
- [Non listé] Abbyy intégré
Data Extraction Scope
UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope
ExtractionResult
, contenant toutes les données extraites automatiquement, et peut être utilisée comme entrée pour l'activité Export Extraction Results. Cette activité présente également un assistant de configuration des extracteurs (Configure Extractors), qui permet de spécifier exactement les champs des types de documents définis dans la taxonomie à extraire.
Commun
- NomAffichage (DisplayName) - Nom affiché de l'activité.
Entrée
- ApplyAutoValidation - Adjust confidence using Generative Extraction cross-checking. Confidences for reported values that are confirmed by Generative AI will be increased to 99%. Enabling this feature while in public preview has no extra AI Unit consumption. Additional consumption may apply once the feature is in general availability. Follow our release notes for the latest information.
- ClassificationResults : les résultats de l'exécution des fichiers du classifieur sur le fichier spécifié, stockés dans un objet
ClassificationResult
. Ce champ est facultatif si vous spécifiez IDTypeDocument à la place. Ce champ prend uniquement en charge les variablesClassificationResult
. - DocumentObjectModel - Le modèle d'objet de document que vous souhaitez utiliser pour valider le document. Ce modèle est stocké dans une variable
Document
et peut être récupéré à partir de l'activité Numériser le document. Veuillez consulter la documentation de l'activité pour plus d'informations sur la façon de procéder. Ce champ prend uniquement en charge les variablesDocument
. -
DocumentPath : le chemin d'accès au document à valider. Ce champ ne prend en charge que les chaînes et les variables String.
Remarque : les types de fichiers pris en charge pour ce champ de propriété sont les suivants :.png
,.gif
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
,.bmp
et.pdf
. - DocumentText : le texte du document lui-même, stocké dans une variable String. Cette valeur peut être récupérée à partir de l'activité Numériser le document . Veuillez consulter la documentation de l’activité pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les chaînes et les variables String.
- IDTypeDocument : ID de type de document, tel que trouvé dans le Gestionnaire de taxonomie. Ce champ est facultatif si vous spécifiez un fichier dans le champ ClassificationResults. Ce champ ne prend en charge que les chaînes et les variables String.
- FormatValeursSiPossible : indique que si une valeur comporte des éléments dérivés, elle n'est pas remplacée par l'étendue d'extraction des données, mais si elle n'a pas d'éléments dérivés, l'étendue d'extraction des données essaie de la calculer. Si l'option est définie sur False , les valeurs ne sont pas formatées.
- AutoValidationConfidenceThreshold - Confidence threshold for generative validation. Only field values with confidence below this threshold will be validated. If values are confirmed, the confidence of those values will be set to this threshold.
- Taxonomie - La taxonomie par rapport à laquelle le document doit être traité, stockée dans une variable
DocumentTaxonomy
. Vous pouvez obtenir cet objet à l'aide d'une activité Load Taxonomy. Ce champ prend uniquement en charge les variablesDocumentTaxonomy
.
Divers
- Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).
Sortie
-
ExtractionResults : résultats du processus d'extraction des données, stockés dans une variable
ExtractionResult
.Remarque : si la plage de pages pour l'extraction de données indique que seule une partie du fichier d'origine est ciblée, Data Extraction Scope génère un fichier dans le dossier du projetTEMP
qui est ensuite transmis aux extracteurs. Le fichier temporaire contient uniquement la plage de pages que les extracteurs doivent recevoir pour le traitement du document.
L'assistant Configurer les extracteurs (Configure Extractors) accessible via l'activité Étendue de l'extraction des données (Data Extraction Scope) vous permet de choisir les extracteurs à appliquer à chaque type de document et chaque champ.
Il peut être ouvert dans le corps de l'activité en cliquant sur le bouton Configurer les extracteurs (Configure Extractors). Le bouton de l'assistant devient disponible après avoir fait glisser au moins une activité de l'extracteur dans le corps de l'activité Étendue de l'extraction des données (Data Extraction Scope). Cet assistant affiche tous les types de documents définis dans la taxonomie et leurs champs correspondants. Il permet de choisir l'extracteur à utiliser pour chacun.
Vous pouvez développer chaque type de document, afficher ses champs dans l'assistant et les sélectionner pour l'extraction.
Le champ Alias d'infrastructure (Framework Alias) peut être utilisé pour mapper un extracteur à un ou plusieurs outils d'entraînement. Par exemple, vous pouvez donner à un Machine Learning Extractor l'alias R2D2, puis vous pouvez utiliser le même alias pour un Machine Learning Extractor Trainer. Cela crée un lien entre l'extracteur et l'outil d'entraînement et fixe des objectifs d'entraînement pour l'extracteur. Chaque extracteur a un alias unique tandis que plusieurs outils d'entraînement peuvent partager le même alias.
Le champ Confiance minimum (Minimum Confidence) peut être configuré avec une valeur comprise entre 0 et 100 et représente le seuil de confiance au-dessus duquel les données extraites sont prises en compte. Si un résultat d'un champ sélectionné a un niveau de confiance inférieur au seuil de confiance, il n'est pas rapporté dans le résultat final.
Le bouton Obtenir ou actualiser les capacités de l'extracteur (Get or refresh extractor capabilities), pour les extracteurs qui prennent en charge cette fonctionnalité, peut être utilisé pour mapper facilement vos champs de taxonomie avec les champs d'extraction disponibles ou pour les actualiser au cas où les champs d'extraction auraient changé.
Les cases en regard de chaque champ des colonnes, si cochées, font que l'activité Étendue de l'extracteur de données (Data Extractor Scope) demande ce champ particulier à l'extracteur. Si la case n'est pas cochée, l'activité Étendue de l'extracteur de données (Data Extractor Scope) ne demande pas de valeur pour ce champ à l'extracteur.
Les entrées de texte en regard de chaque champ permettent de mapper les champs définis dans l'élément Taxonomy avec ceux de la taxonomie interne de l'extracteur, le cas échéant. Pour les champs de colonne, ajoutez dans le champ de saisie de texte l'identifiant du champ cible à partir de la taxonomie interne de l'extracteur. Pour les champs de table, le champ de table parent est mappé au niveau de la table et les colonnes correspondantes sont mappées individuellement.
Le nombre de colonnes de l'assistant varie en fonction du nombre d'extracteurs présents dans l'activité de périmètre. Le nom de chaque colonne est donné par le nom d'affichage de chaque activité d'extraction.
Si plusieurs extracteurs sont utilisés dans l'activité, l'ordre des extracteurs dans l'étendue définit leur priorité. Par exemple, dans l'image ci-dessus, si l'extracteur 1 renvoie une valeur acceptable (qui est supérieure au niveau de confiance minimum) pour un champ demandé, alors ce champ n'est pas demandé lors de l'exécution de l'extracteur 2 et l'extracteur 3. Si l'extracteur 1 et l'extracteur 2 renvoient des valeurs inférieures au niveau de confiance minimum pour ce champ, ou ne renvoient rien du tout, les résultats de l'extracteur 3 sont pris en compte s'ils satisfont aux conditions d'acceptabilité de la confiance.
Intégration de Document Understanding
L'activité Classify Document Scope fait partie des Document Understanding Solutions. Consultez le document Document Understanding Guide pour plus d'informations.