Activités (Activities)
Plus récente (Latest)
False
Image de fond de la bannière
Activités Document Understanding
Dernière mise à jour 10 avril. 2024

Data Extraction Scope

UiPath.IntelligentOCR.Activities.DataExtraction.DataExtractionScope

Fournit une étendue des activités de l'extracteur, permettant ainsi de les configurer en fonction des types de documents définis dans votre taxonomie. La sortie de l'activité est stockée dans une variable ExtractionResult, contenant toutes les données extraites automatiquement, et peut être utilisée comme entrée pour l'activité Export Extraction Results. Cette activité présente également un assistant de configuration des extracteurs (Configure Extractors), qui permet de spécifier exactement les champs des types de documents définis dans la taxonomie à extraire.

Propriétés

Commun
  • NomAffichage (DisplayName) - Nom affiché de l'activité.
Entrée
  • AppliquerValidationGénérative (ApplyGenerativeValidation) (Aperçu) : ajustez la confiance à l'aide de la vérification croisée de l'extraction générative. Les confiances pour les valeurs rapportées confirmées par l'IA générative seront augmentées à 99 %. L'activation de cette fonctionnalité en mode d'aperçu public ne consomme pas d'AI Units supplémentaires. Une consommation supplémentaire peut s’appliquer une fois que la fonctionnalité est en disponibilité générale. Lisez nos notes de version pour obtenir les dernières informations.
  • ClassificationResults : les résultats de l'exécution des fichiers du classifieur sur le fichier spécifié, stockés dans un objet ClassificationResult. Ce champ est facultatif si vous spécifiez IDTypeDocument à la place. Ce champ prend uniquement en charge les variables ClassificationResult.
  • DocumentObjectModel - Le modèle d'objet de document que vous souhaitez utiliser pour valider le document. Ce modèle est stocké dans une variable Document et peut être récupéré à partir de l'activité Numériser le document. Veuillez consulter la documentation de l'activité pour plus d'informations sur la façon de procéder. Ce champ prend uniquement en charge les variables Document.
  • DocumentPath : le chemin d'accès au document à valider. Ce champ ne prend en charge que les chaînes et les variables String.

    Remarque : les types de fichiers pris en charge pour ce champ de propriété sont les suivants : .png, .gif, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp et .pdf.
  • DocumentText : le texte du document lui-même, stocké dans une variable String. Cette valeur peut être récupérée à partir de l'activité Numériser le document . Veuillez consulter la documentation de l’activité pour plus d’informations sur la façon de procéder. Ce champ ne prend en charge que les chaînes et les variables String.
  • IDTypeDocument : ID de type de document, tel que trouvé dans le Gestionnaire de taxonomie. Ce champ est facultatif si vous spécifiez un fichier dans le champ ClassificationResults. Ce champ ne prend en charge que les chaînes et les variables String.
  • FormatValeursSiPossible : indique que si une valeur comporte des éléments dérivés, elle n'est pas remplacée par l'étendue d'extraction des données, mais si elle n'a pas d'éléments dérivés, l'étendue d'extraction des données essaie de la calculer. Si l'option est définie sur False , les valeurs ne sont pas formatées.
  • GénératifValidationConfianceThreshold (Aperçu) : seuil de confiance pour la validation générative. Seules les valeurs de champ fiables inférieures à ce seuil seront validées. Si les valeurs sont confirmées, la confiance de ces valeurs sera définie sur ce seuil.
  • Taxonomie - La taxonomie par rapport à laquelle le document doit être traité, stockée dans une variable DocumentTaxonomy. Vous pouvez obtenir cet objet à l'aide d'une activité Load Taxonomy. Ce champ prend uniquement en charge les variables DocumentTaxonomy.
Divers
  • Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).
Sortie
  • ExtractionResults : résultats du processus d'extraction des données, stockés dans une variable ExtractionResult.
    Remarque : si la plage de pages pour l'extraction de données indique que seule une partie du fichier d'origine est ciblée, Data Extraction Scope génère un fichier dans le dossier du projet TEMP qui est ensuite transmis aux extracteurs. Le fichier temporaire contient uniquement la plage de pages que les extracteurs doivent recevoir pour le traitement du document.

Utilisation de l'assistant de configuration de l'extracteur

L'assistant Configurer les extracteurs (Configure Extractors) accessible via l'activité Étendue de l'extraction des données (Data Extraction Scope) vous permet de choisir les extracteurs à appliquer à chaque type de document et chaque champ.

Il peut être ouvert dans le corps de l'activité en cliquant sur le bouton Configurer les extracteurs (Configure Extractors). Le bouton de l'assistant devient disponible après avoir fait glisser au moins une activité de l'extracteur dans le corps de l'activité Étendue de l'extraction des données (Data Extraction Scope). Cet assistant affiche tous les types de documents définis dans la taxonomie et leurs champs correspondants. Il permet de choisir l'extracteur à utiliser pour chacun.



Vous pouvez développer chaque type de document, afficher ses champs dans l'assistant et les sélectionner pour l'extraction.



Le champ Alias d'infrastructure (Framework Alias) peut être utilisé pour mapper un extracteur à un ou plusieurs outils d'entraînement. Par exemple, vous pouvez donner à un Machine Learning Extractor l'alias R2D2, puis vous pouvez utiliser le même alias pour un Machine Learning Extractor Trainer. Cela crée un lien entre l'extracteur et l'outil d'entraînement et fixe des objectifs d'entraînement pour l'extracteur. Chaque extracteur a un alias unique tandis que plusieurs outils d'entraînement peuvent partager le même alias.

Le champ Confiance minimum (Minimum Confidence) peut être configuré avec une valeur comprise entre 0 et 100 et représente le seuil de confiance au-dessus duquel les données extraites sont prises en compte. Si un résultat d'un champ sélectionné a un niveau de confiance inférieur au seuil de confiance, il n'est pas rapporté dans le résultat final.

Le bouton Obtenir ou actualiser les capacités de l'extracteur (Get or refresh extractor capabilities), pour les extracteurs qui prennent en charge cette fonctionnalité, peut être utilisé pour mapper facilement vos champs de taxonomie avec les champs d'extraction disponibles ou pour les actualiser au cas où les champs d'extraction auraient changé.



Les cases en regard de chaque champ des colonnes, si cochées, font que l'activité Étendue de l'extracteur de données (Data Extractor Scope) demande ce champ particulier à l'extracteur. Si la case n'est pas cochée, l'activité Étendue de l'extracteur de données (Data Extractor Scope) ne demande pas de valeur pour ce champ à l'extracteur.

Les entrées de texte en regard de chaque champ permettent de mapper les champs définis dans l'élément Taxonomy avec ceux de la taxonomie interne de l'extracteur, le cas échéant. Pour les champs de colonne, ajoutez dans le champ de saisie de texte l'identifiant du champ cible à partir de la taxonomie interne de l'extracteur. Pour les champs de table, le champ de table parent est mappé au niveau de la table et les colonnes correspondantes sont mappées individuellement.

Remarque : lorsque vous utilisez l' extracteur d'apprentissage automatique dans une configuration avec des champs de colonne définis, ceux-ci peuvent être mappés à un champ de table à partir de votre taxonomie. Ils seront affichés dans une collection appelée éléments.

Le nombre de colonnes de l'assistant varie en fonction du nombre d'extracteurs présents dans l'activité de périmètre. Le nom de chaque colonne est donné par le nom d'affichage de chaque activité d'extraction.



Si plusieurs extracteurs sont utilisés dans l'activité, l'ordre des extracteurs dans l'étendue définit leur priorité. Par exemple, dans l'image ci-dessus, si l'extracteur 1 renvoie une valeur acceptable (qui est supérieure au niveau de confiance minimum) pour un champ demandé, alors ce champ n'est pas demandé lors de l'exécution de l'extracteur 2 et l'extracteur 3. Si l'extracteur 1 et l'extracteur 2 renvoient des valeurs inférieures au niveau de confiance minimum pour ce champ, ou ne renvoient rien du tout, les résultats de l'extracteur 3 sont pris en compte s'ils satisfont aux conditions d'acceptabilité de la confiance.

Intégration de Document Understanding

L'activité Classify Document Scope fait partie des Document Understanding Solutions. Consultez le document Document Understanding Guide pour plus d'informations.

  • Propriétés
  • Utilisation de l'assistant de configuration de l'extracteur

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Logo Uipath blanc
Confiance et sécurité
© 2005-2024 UiPath. All rights reserved.