- Vue d'ensemble (Overview)
- Document Processing Contracts
- Notes de publication
- À propos des contrats de traitement de documents
- Classe Zone
- Interface ActivitéIPersisted
- Classe PrettyBoxConverter
- Interface ActivitéIClassifier
- Interface FournisseurIClassifieurCapacités
- Classe TypeDocumentClassifieur
- Classe RésultatClassifieur
- Classe ActivitéCodeClassifieur
- Classe ActivitéClassifieurNatif
- Classe ActivitéClassifieurCodeAsync
- Classe CapacitéClassifieurTypeDocument
- Classe ActivitéExtracteurCodeAsync
- Classe ActivitéExtracteurCode
- Classe ExtracteurTypeDocument
- Classe ExtracteurDocumentTypeCapacités
- Classe ExtracteurChampCapacités
- Classe ActivitéExtracteurNatif
- Classe ExtracteurRésultat
- Interface FournisseurICapabilities
- Interface ActivitéIExtractor
- Classe ChargeUtileExtracteur
- Énumération PrioritéActionDocument
- Classe DocumentActionData
- Énumération StatutActionDocument
- Énumération TypeActionDocument
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe DonnéesUtilisateur
- Classe Documents
- Classe RésultatDivisionDocument
- Classe ExtensionDom
- Classe Page
- Classe SectionPage
- Classe Polygone
- Classe ConvertisseurPolygones
- Classe de métadonnées
- Classe GroupeMot
- Classe Mot
- Énumération SourceTraitement
- Classe CelluleRésultatsTable
- Classe ValeurTableRésultats
- Classe InformationsColonnesTableRésultats
- Classe TableRésultats
- Énumération Rotation
- Énumération TypeSection
- Énumération TypeGroupeMot
- ProjectionTexteIDocument Interface
- Classe RésultatClassification
- Classe RésultatExtraction
- Classe ResultatsDocument
- Classe ResultatsLimitesDocument
- Classe ResultatsDonnéesPoint
- Classe RésultatsValeur
- Classe ResultatsContenuRéference
- Classe ResultatsValeurJetons
- Classe ResultatsChampDérivé
- Énumération ResultatsSourceDonnées
- Classe ResultatsConstantes
- Classe ChampValeurSimple
- Classe ValeurChampTable
- Classe GroupeDocument
- Classe DocumentTaxonomie
- Classe TypeDocument
- Classe Champ
- Énumération TypeChamp
- Classe InfoLangage
- Classe SaisieMétadonnées
- Énumération TypeTexte
- Classe TypeFieldTypeField Class
- Interface ActivitéISuivi
- ITrainableActivity Interface
- Interface ActivitéClassifieurITrainable
- Interface ActivitéExtracteurITrainable
- Classe ActivitéFormationClassifieurCodeAsync
- Classe ActivitéFormationClassifieurCode
- Classe ActivitéFormationClassifieurNatif
- Classe ActivitéFormationExtracteurCodeAsync
- Classe ActivitéFormationExtracteurCode
- Classe ActivitéFormationExtracteurNative
- Numériseur de Document Understanding
- Document Understanding ML
- Serveur local OCR Document Understanding
- Document Understanding
- Notes de publication
- À propos du package d’activités Document Understanding
- Compatibilité du projet
- Définir le mot de passe du PDF
- Merge PDFs
- Get PDF Page Count
- Extraire le texte PDF (Extract PDF Text)
- Extract PDF Images
- Extract PDF Page Range
- Extraire les données du document
- Create Validation Task and Wait
- Attendre la tâche de validation et reprendre
- Create Validation Task
- Classer un document (Classify Document)
- Créer une tâche de validation de classification (Create Classification Validation Task)
- Créer une tâche de validation de classification et attendre (Create Classification Validation Task and Wait)
- Attendre la tâche de validation de la classification et reprendre
- IntelligentOCR
- Notes de publication
- À propos du package d'activités IntelligentOCR
- Compatibilité du projet
- Configuration de l'authentification
- Load Taxonomy
- Digitize Document
- Classify Document Scope
- Keyword Based Classifier
- Classifieur de projet Document Understanding (Document Understanding Project Classifier)
- Intelligent Keyword Classifier
- Create Document Classification Action
- Attendre l'action de classification du document et reprendre
- Tester l'étendue des classifieurs
- Outil d'entraînement de classifieur basé sur des mots-clés
- Intelligent Keyword Classifier Trainer
- Data Extraction Scope
- Extracteur de projet Document Understanding (Document Understanding Project Extractor)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Tester l'étendue des extracteurs
- Export Extraction Results
- Services ML
- OCR
- Contrats OCR
- Notes de publication
- À propos des contrats OCR
- Compatibilité du projet
- Interface ActivitéIOCR
- Classe OCRCodeAsync
- Classe ActivitéCodeOCR
- Classe ActivitéOCRNatif
- Classe Caractère
- Classe RésultatOCR
- Classe Mot
- Énumération StylesPolice
- Énumération RotationOCR
- Classe OCRCapabilities
- Classe BaseCaptureOCR
- Classe UsineCaptureOCR
- Classe BaseContrôleCapture
- Énumération UtilisationCaptureMoteur
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Non listé] Abbyy
- Notes de publication
- À propos du package d'activités Abbyy
- Compatibilité du projet
- Reconnaissance optique des caractères ABBYY (ABBYY OCR)
- Reconnaissance optique des caractères ABBYY Cloud (ABBYY Cloud OCR)
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Classer un document (Classify Document)
- Traiter le document (Process Document)
- Valider le document (Validate Document)
- Exporter le document (Export Document)
- Obtenir le champ (Get Field)
- Obtenir la table (Get Table)
- Prepare Validation Station Data
- [Non listé] Abbyy intégré
Activités Document Understanding
Data Extraction Scope
UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope
ExtractionResult
, contenant toutes les données extraites automatiquement, et peut être utilisée comme entrée pour l'activité Export Extraction Results. Cette activité présente également un assistant de configuration des extracteurs (Configure Extractors), qui permet de spécifier exactement les champs des types de documents définis dans la taxonomie à extraire.
Module Designer
Entrée
- DocumentPath : le chemin d'accès au document à valider. Ce champ ne prend en charge que les chaînes et les variables String.
Remarque : les types de fichiers pris en charge pour ce champ de propriété sont les suivants :
.png
,.gif
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
,.bmp
et.pdf
. - TexteDocument : le texte du document lui-même, stocké dans une variable String. Cette valeur peut être récupérée à partir de l’activité Numériser le document (Digitize Document). Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les chaînes et les variables
String
. - ModèleObjetDocument : le modèle d’objet de document que vous souhaitez utiliser pour valider le document. Ce modèle est stocké dans une variable
Document
et peut être récupéré à partir de l’activité Numériser le document (Digitize Document). Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les variablesDocument
. - Taxonomie - La taxonomie par rapport à laquelle le document doit être traité, stockée dans une variable
DocumentTaxonomy
. Vous pouvez obtenir cet objet à l'aide d'une activité Load Taxonomy. Ce champ prend uniquement en charge les variablesDocumentTaxonomy
. - ClassificationResults : les résultats de l'exécution des fichiers du classifieur sur le fichier spécifié, stockés dans un objet
ClassificationResult
. Ce champ est facultatif si vous spécifiez IDTypeDocument à la place. Ce champ prend uniquement en charge les variablesClassificationResult
. - IDTypeDocument : ID du type de document, tel qu’il apparaît dans Taxonomy Manager. Ce champ est facultatif si vous avez spécifié un fichier dans le champ RésultatsClassification. Ce champ prend uniquement en charge les chaînes et les variables
String
.
Sortie
- ExtractionResults : résultats du processus d'extraction des données, stockés dans une variable
ExtractionResult
.Remarque : si la plage de pages pour l'extraction de données indique que seule une partie du fichier d'origine est ciblée, Data Extraction Scope génère un fichier dans le dossier du projetTEMP
qui est ensuite transmis aux extracteurs. Le fichier temporaire contient uniquement la plage de pages que les extracteurs doivent recevoir pour le traitement du document.
Panneau propriétés
Authentification
Les propriétés d’authentification de cette activité vous permettent de procéder à une validation automatique via des robots locaux. Avant de configurer ces propriétés, veillez à bien respecter les exigences détaillées sur la page Configuration de l’authentification. Une fois ces étapes terminées, vous pouvez remplir les propriétés d’authentification de l’activité.
- Ressource d’informations d’identification de runtime : utilisez ce champ lorsque vous avez besoin d’accéder aux fonctionnalités de validation automatique de Document Understanding lorsque le Robot est connecté à un Orchestrator local, ou bien à partir d’un locataire différent. À des fins d’authentification, vous pouvez choisir de saisir une ressource d’informations d’identification de l’une des manières suivantes :
- Dans la liste déroulante, sélectionnez la ressource d’informations d’identification souhaitée dans l’Orchestrator auquel le Robot UiPath® est connecté.
- Saisissez manuellement le chemin d’accès à la ressource d’informations d’identification Orchestrator où vous stockez les informations d’identification de l’application externe pour accéder aux fonctionnalités de validation automatique.
Le format du chemin d'accès doit être :
<OrchestratorFolderName>/<AssetName>
.
- URL du locataire au runtime : utilisez ce champ, conjointement au champ Ressource d’informations d’identification du runtime. Saisissez l’URL du locataire auquel le robot se connectera afin d’exécuter la validation automatique. L’URL doit être au format suivant :
https://<baseURL>/<OrganizationName>/<TenantName>
.
Commun
- NomAffichage (DisplayName) - Nom affiché de l'activité.
Entrée
- AppliquerValidationAutomatique : ajustez la confiance à l’aide de la vérification croisée de l’extraction générative. Les confiances pour les valeurs rapportées confirmées par l’IA générative seront augmentées à 99 %. L’activation de cette fonctionnalité entraîne la consommation d’AI Units supplémentaires.
Important :
Cette fonctionnalité fait actuellement partie d'un processus d'audit et ne doit pas être considérée comme faisant partie de l'autorisation FedRAMP tant que la révision n'est pas finalisée. Consultez ici la liste complète des fonctionnalités en cours de révision.
- ClassificationResults : les résultats de l'exécution des fichiers du classifieur sur le fichier spécifié, stockés dans un objet
ClassificationResult
. Ce champ est facultatif si vous spécifiez IDTypeDocument à la place. Ce champ prend uniquement en charge les variablesClassificationResult
. - ModèleObjetDocument : le modèle d’objet de document que vous souhaitez utiliser pour valider le document. Ce modèle est stocké dans une variable
Document
et peut être récupéré à partir de l’activité Numériser le document (Digitize Document). Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les variablesDocument
. - DocumentPath : le chemin d'accès au document à valider. Ce champ ne prend en charge que les chaînes et les variables String.
Remarque : les types de fichiers pris en charge pour ce champ de propriété sont les suivants :
.png
,.gif
,.jpe
,.jpg
,.jpeg
,.tiff
,.tif
,.bmp
et.pdf
. - TexteDocument : le texte du document lui-même, stocké dans une variable String. Cette valeur peut être récupérée à partir de l’activité Numériser le document (Digitize Document). Consultez la page Numériser le document pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les chaînes et les variables
String
. - IDTypeDocument : ID du type de document, tel qu’il apparaît dans Taxonomy Manager. Ce champ est facultatif si vous avez spécifié un fichier dans le champ RésultatsClassification. Ce champ prend uniquement en charge les chaînes et les variables
String
. - FormatValeursSiPossible : indique que si une valeur comporte des éléments dérivés, elle n'est pas remplacée par l'étendue d'extraction des données, mais si elle n'a pas d'éléments dérivés, l'étendue d'extraction des données essaie de la calculer. Si l'option est définie sur False , les valeurs ne sont pas formatées.
- AutoValidationConfidenceThreshold : seuil de confiance pour la validation générative. Seules les valeurs de champ fiables inférieures à ce seuil seront validées. Si les valeurs sont confirmées, la confiance de ces valeurs sera définie sur ce seuil.
Important :
Cette fonctionnalité fait actuellement partie d'un processus d'audit et ne doit pas être considérée comme faisant partie de l'autorisation FedRAMP tant que la révision n'est pas finalisée. Consultez ici la liste complète des fonctionnalités en cours de révision.
- Taxonomie - La taxonomie par rapport à laquelle le document doit être traité, stockée dans une variable
DocumentTaxonomy
. Vous pouvez obtenir cet objet à l'aide d'une activité Load Taxonomy. Ce champ prend uniquement en charge les variablesDocumentTaxonomy
.
Divers
- Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).
Sortie
- ExtractionResults : résultats du processus d'extraction des données, stockés dans une variable
ExtractionResult
.Remarque : si la plage de pages pour l'extraction de données indique que seule une partie du fichier d'origine est ciblée, Data Extraction Scope génère un fichier dans le dossier du projetTEMP
qui est ensuite transmis aux extracteurs. Le fichier temporaire contient uniquement la plage de pages que les extracteurs doivent recevoir pour le traitement du document.
L'assistant Configurer les extracteurs (Configure Extractors) accessible via l'activité Étendue de l'extraction des données (Data Extraction Scope) vous permet de choisir les extracteurs à appliquer à chaque type de document et chaque champ.
Dans le corps de l’activité, sélectionnez Configurer les extracteurs. Le bouton de l’assistant devient disponible après avoir fait glisser au moins une activité de l’extracteur dans le corps de l’activité Étendue de l’extraction des données (Data Extraction Scope). Cet assistant affiche tous les types de documents définis dans la taxonomie et leurs champs correspondants. Il permet de choisir l’extracteur à utiliser pour chacun.
Vous pouvez développer chaque type de document, afficher ses champs dans l'assistant et les sélectionner pour l'extraction.
R2D2
, puis utiliser le même alias pour un entraîneur d’extracteur d’apprentissage automatique. Cela va permettre de créer un lien entre l’extracteur et l’outil d’entraînement, et de fixer des objectifs d’entraînement pour l’extracteur. Chaque extracteur dispose d’un alias unique, tandis que plusieurs outils d’entraînement peuvent partager le même alias.
Sélectionnez Obtenir ou rafraîchir les capacités de l’extracteur (Get or refresh extractor capabilities), pour les extracteurs qui prennent en charge cette fonctionnalité, pour mapper facilement vos champs de taxonomie avec les champs d’extraction disponibles ou pour les actualiser au cas où les champs d’extraction auraient changé.
Si les cases en regard de chaque champ des colonnes sont sélectionnées, l’activité Étendue de l’extraction de données (Data Extraction Scope) va demander ce champ spécifique à l’extracteur. Si la case n’est pas cochée, l’activité Étendue de l’extraction de données (Data Extraction Scope) ne demande pas de valeur à l’extracteur pour ce champ.
Les entrées de texte en regard de chaque champ permettent de mapper les champs définis dans votre taxonomie avec ceux de la taxonomie interne de l’extracteur, le cas échéant. Pour les champs réguliers, ajoutez dans l’entrée de texte l’identifiant du champ cible de la taxonomie interne de l’extracteur. Pour les champs de table, le champ de table parent est mappé au niveau de la table, tandis que les colonnes correspondantes sont mappées individuellement.
Le nombre de colonnes de l'assistant varie en fonction du nombre d'extracteurs présents dans l'activité de périmètre. Le nom de chaque colonne est donné par le nom d'affichage de chaque activité d'extraction.
Si plusieurs extracteurs sont utilisés dans l’activité, l’ordre des extracteurs dans l’étendue définit leur priorité. Prenons à titre d’exemple trois extracteurs. Si l’extracteur 1 renvoie une valeur acceptable (c’est-à-dire supérieure au niveau de confiance minimum) pour un champ demandé, alors ce champ n’est pas demandé lors de l’exécution de l’extracteur 2 et de l’extracteur 3. Si l’extracteur 1 et l’extracteur 2 renvoient des valeurs inférieures au niveau de confiance minimum pour ce champ, ou ne renvoient rien du tout, les résultats de l’extracteur 3 sont pris en compte s’ils satisfont aux conditions d’acceptabilité de la confiance.
L'activité Classify Document Scope fait partie des Document Understanding Solutions. Consultez le document Document Understanding Guide pour plus d'informations.