- Vue d'ensemble (Overview)
- Paramétrage et configuration
- Mappage des données
- Mappeur de données
- Extracteurs de données
- Transformations
- Confidentialité des données
Extracteurs de données
Les extracteurs de données peuvent être utilisés pour récupérer les informations appropriées à partir de différents documents et d'autres sources.
En matière de types de documents, il existe trois catégories principales :
- Documents structurés : ils possèdent un format fixe et sont faciles à traiter, en vous aidant à indiquer les données requises dans les différents champs. Ces documents sont conçus pour contenir un certain type de données. Exemples de documents structurés : formulaires fiscaux, enquêtes, questionnaires, etc.
- Documents semi-structurés : ils possèdent à la fois un format fixe et des parties variables. Les documents semi-structurés n'ont pas de format fixe dans le sens où ils ne sont pas liés à des champs de données spécifiés comme les documents structurés. Ils comprennent en revanche un ensemble prévisible d'informations : par exemple, une facture contient toujours un identifiant unique, une date ou un numéro de facture, mais l'emplacement peut varier en fonction du fournisseur. Ces documents contiennent principalement des paires étiquette:valeur et peuvent également contenir des paragraphes. Exemples de documents semi-structurés : factures (notamment de services publics), reçus, bons de commande, etc.
- Documents non structurés : les informations ne sont pas organisées selon un format fixe. Ces documents contiennent principalement du texte brut, la plupart des données sont sous forme non structurée à l'intérieur du texte. Exemples de documents non structurés : contrats, e-mails, dossiers médicaux, etc.
Les extracteurs de données peuvent différer selon la façon dont ils extraient les données des documents. À ce titre, il existe deux types d’extracteurs :
- Extracteurs de résultats fixes : entraînés pour extraire un ensemble prédéfini d’informations d’un document. Par exemple, l'extracteur Facture (Invoice) essaie toujours d'extraire le nom de l'entreprise, l'adresse, le montant total, etc.
- Extracteurs de réponse à des questions : entraînés pour répondre à des questions en fonction d'un contexte donné. Ces extracteurs s'appuient sur la compréhension du langage naturel pour analyser le texte et déterminer la valeur exacte devant en être extraite, fournir une réponse appropriée ou même choisir une option dans une liste de propositions.
Maintenant que nous avons expliqué les différences essentielles entre les mises en page de documents et les types d'extracteurs de données, nous pouvons nous intéresser à l'ensemble d'extracteurs de données de Clipboard AI :
- Extracteurs de documents spécifiques
- Extracteur de texte brut
- Extracteur de tables et de paires nom-valeur
- Extracteur semi-structuré
Un extracteur est automatiquement choisi lors de la copie des données. Les résultats de chaque extracteur étant très différents, il est fortement recommandé de tous les essayer et de voir lequel est le mieux adapté à votre document.
Pour utiliser un extracteur différent de celui automatiquement sélectionné, sélectionnez le bouton Modifier le type (Change type) situé en bas du mappeur. Cette action ouvre le panneau des extracteurs de données, à partir duquel vous pouvez sélectionner un autre extracteur dans la liste. Une fois qu'un nouvel extracteur est sélectionné, les champs de données sont mis à jour dans le mappeur et vous pouvez comparer les résultats.
Les extracteurs de documents spécifiques sont un ensemble d'extracteurs à résultats fixes entraînés sur des types de documents spécifiques. Chaque type de document est extrait à l'aide de son modèle d'apprentissage automatique Document Understanding correspondant, et ce de la manière suivante :
- Facture
- Passeport
- Reçu
- Carte d’identité
- Formulaire W-2
- Facture de services publics
- Bon de commande
- Formulaires Web/papier
Le type de document identifié automatiquement est surligné et signalé par une étoile. Pour tout autre type de document, à l'exception des éléments répertoriés, utilisez l'un des autres extracteurs.
L'extracteur de texte brut est un extracteur de questions-réponses qui utilise GPT3 pour récupérer des données à partir de documents en texte brut, de pages web, d'e-mails, etc. Il peut être utilisé soit avec des documents semi-structurés, pour gérer les parties variables, soit avec des documents non structurés, où la disposition n'a pas d'importance.
Cet extracteur prend en charge la compréhension sémantique et, en plus de répondre aux questions, il dispose d'autres fonctionnalités avancées, comme la synthèse, la traduction automatique, la classification du type de document et la détection des sentiments.
L'extracteur de tables et de paires nom-valeur est un extracteur à résultat fixe idéal pour les documents contenant des paires étiquette:valeur (par exemple, Prénom : Jean, Nom : Dupont) ainsi que des tables.
L'extracteur semi-structuré est un extracteur de questions-réponses et, comme son nom l'indique, il peut extraire des données de documents semi-structurés différents de ceux couverts par les extracteurs de documents spécifiques. Vous pouvez par exemple utiliser cet extracteur pour les relevés bancaires, les actes de vente, les formulaires fiscaux, etc.