Clipboard AI - Extracteurs de données

clipboard-ai

latest

false

Guide de l'utilisateur de Clipboard AI

Démarrage
Paramétrage et configuration
Mappage des données
Confidentialité des données
- Confidentialité des données

Important :

Veuillez noter que ce contenu a été localisé en partie à l’aide de la traduction automatique. La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Extracteurs de données

Les extracteurs de données peuvent être utilisés pour récupérer les informations appropriées à partir de différents documents et d'autres sources.

En matière de types de documents, il existe trois catégories principales :

Documents structurés : ils possèdent un format fixe et sont faciles à traiter, en vous aidant à indiquer les données requises dans les différents champs. Ces documents sont conçus pour contenir un certain type de données. Exemples de documents structurés : formulaires fiscaux, enquêtes, questionnaires, etc.
Documents semi-structurés : ils possèdent à la fois un format fixe et des parties variables. Les documents semi-structurés n'ont pas de format fixe dans le sens où ils ne sont pas liés à des champs de données spécifiés comme les documents structurés. Ils comprennent en revanche un ensemble prévisible d'informations : par exemple, une facture contient toujours un identifiant unique, une date ou un numéro de facture, mais l'emplacement peut varier en fonction du fournisseur. Ces documents contiennent principalement des paires étiquette:valeur et peuvent également contenir des paragraphes. Exemples de documents semi-structurés : factures (notamment de services publics), reçus, bons de commande, etc.
Documents non structurés : les informations ne sont pas organisées selon un format fixe. Ces documents contiennent principalement du texte brut, la plupart des données sont sous forme non structurée à l'intérieur du texte. Exemples de documents non structurés : contrats, e-mails, dossiers médicaux, etc.

Les extracteurs de données peuvent différer selon la façon dont ils extraient les données des documents. À ce titre, il existe deux types d’extracteurs :

Extracteurs de résultats fixes : entraînés pour extraire un ensemble prédéfini d’informations d’un document. Par exemple, l'extracteur Facture (Invoice) essaie toujours d'extraire le nom de l'entreprise, l'adresse, le montant total, etc.
Extracteurs de réponse à des questions : entraînés pour répondre à des questions en fonction d'un contexte donné. Ces extracteurs s'appuient sur la compréhension du langage naturel pour analyser le texte et déterminer la valeur exacte devant en être extraite, fournir une réponse appropriée ou même choisir une option dans une liste de propositions.

Clipboard AI utilise l’ensemble d’extracteurs de données suivant :

Extracteur universel
Extracteurs de documents spécifiques
Extracteur de texte brut
Extracteur de tables et de paires nom-valeur

L'extracteur universel

L’ extracteur universel est l’option par défaut pour extraire des données de vos documents. Il analyse vos données et décide de la meilleure solution pour les extraire. Il utilise une combinaison des extracteurs existants et permet également aux requêtes de trouver la meilleure correspondance dans vos données.

Découvrez comment interagir avec l' Extracteur universel.

Extracteurs de documents spécifiques

Les extracteurs de documents spécifiques sont un ensemble d'extracteurs à résultats fixes entraînés sur des types de documents spécifiques. Chaque type de document est extrait à l'aide de son modèle d'apprentissage automatique Document Understanding correspondant, et ce de la manière suivante :

Facture
Passeport
Reçu
Carte d’identité
Formulaire W-2
Facture de services publics
Bon de commande
Formulaires Web/papier

Vous pouvez sélectionner le modèle Document Understanding préféré en fonction de votre type de document.

Extracteur de texte brut

L'extracteur de texte brut est un extracteur de questions-réponses qui utilise GPT3 pour récupérer des données à partir de documents en texte brut, de pages web, d'e-mails, etc. Il peut être utilisé soit avec des documents semi-structurés, pour gérer les parties variables, soit avec des documents non structurés, où la disposition n'a pas d'importance.

Cet extracteur prend en charge la compréhension sémantique et, en plus de répondre aux questions, il dispose d'autres fonctionnalités avancées, comme la synthèse, la traduction automatique, la classification du type de document et la détection des sentiments.

Extracteur de tables et de paires nom-valeur

L'extracteur de Tables et de paires nom-valeur est un extracteur à résultat fixe idéal pour les documents contenant des tables et des paires Nom:Valeur.

Sommaire de la page

L'extracteur universel
Extracteurs de documents spécifiques
Extracteur de texte brut
Extracteur de tables et de paires nom-valeur

Cette page vous a-t-elle été utile ?

PrécédentMappeur de données

SuivantUtilisation de l'extracteur universel

L'extracteur universel​

Extracteurs de documents spécifiques​

Extracteur de texte brut​

Extracteur de tables et de paires nom-valeur​

Cette page vous a-t-elle été utile ?

L'extracteur universel

Extracteurs de documents spécifiques

Extracteur de texte brut

Extracteur de tables et de paires nom-valeur