Assistant Document Understanding - Configure Extractors (Configure Extractors) de Étendue de l'extraction de données (Data Extraction Scope)

document-understanding

2021.10

false

Guide de l'utilisateur de Document Understanding

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)

L'assistant Configurer les extracteurs (Configure Extractors) accessible via l'activité Étendue de l'extraction des données (Data Extraction Scope) vous permet de choisir les extracteurs à appliquer à chaque type de document et chaque champ.

Il peut être ouvert dans le corps de l'activité en cliquant sur le bouton Configurer les extracteurs (Configure Extractors). Le bouton de l'assistant devient disponible après avoir fait glisser au moins une activité de l'extracteur dans le corps de l'activité Étendue de l'extraction des données (Data Extraction Scope). Cet assistant affiche tous les types de documents définis dans la taxonomie et leurs champs correspondants. Il permet de choisir l'extracteur à utiliser pour chacun.

Vous pouvez développer chaque type de document, afficher ses champs dans l'assistant et les sélectionner pour l'extraction.

Le champ Alias d'infrastructure (Framework Alias) peut être utilisé pour mapper un extracteur à un ou plusieurs outils d'entraînement. Par exemple, vous pouvez donner à un Machine Learning Extractor l'alias R2D2, puis vous pouvez utiliser le même alias pour un Machine Learning Extractor Trainer. Cela crée un lien entre l'extracteur et l'outil d'entraînement et fixe des objectifs d'entraînement pour l'extracteur. Chaque extracteur a un alias unique tandis que plusieurs outils d'entraînement peuvent partager le même alias.

Le champ Confiance minimum (Minimum Confidence) peut être configuré avec une valeur comprise entre 0 et 100 et représente le seuil de confiance au-dessus duquel les données extraites sont prises en compte. Si un résultat d'un champ sélectionné a un niveau de confiance inférieur au seuil de confiance, il n'est pas rapporté dans le résultat final.

Le bouton Obtenir ou actualiser les capacités de l'extracteur (Get or refresh extractor capabilities), pour les extracteurs qui prennent en charge cette fonctionnalité, peut être utilisé pour mapper facilement vos champs de taxonomie avec les champs d'extraction disponibles ou pour les actualiser au cas où les champs d'extraction auraient changé.

Les cases en regard de chaque champ des colonnes, si cochées, font que l'extracteur est invité à fournir une valeur pour le champ spécifié. Si décochées, le champ est ignoré lors de l'extraction de données.

Les champs de texte en regard de chaque champ de document permettent de mapper les champs définis dans l'élément Taxonomy avec ceux de la taxonomie interne de l'extracteur, le cas échéant.

Le nombre de colonnes de l'assistant varie en fonction du nombre d'extracteurs présents dans l'activité de périmètre. Le nom de chaque colonne est donné par le nom d'affichage de chaque activité d'extraction.

Si plusieurs extracteurs sont utilisés dans l'activité, l'ordre des extracteurs dans l'étendue définit leur priorité. Par exemple, dans l'image ci-dessus, si l'extracteur 1 renvoie une valeur acceptable (qui est supérieure au niveau de confiance minimum) pour un champ demandé, alors ce champ n'est pas demandé lors de l'exécution de l'extracteur 2 et l'extracteur 3. Si l'extracteur 1 et l'extracteur 2 renvoient des valeurs inférieures au niveau de confiance minimum pour ce champ, ou ne renvoient rien du tout, les résultats de l'extracteur 3 sont pris en compte s'ils satisfont aux conditions d'acceptabilité de la confiance.

Cette page vous a-t-elle été utile ?

PrécédentVue d’ensemble de l’extraction des données

SuivantRegex Based Extractor