- Vue d'ensemble (Overview)
- Démarrage
- Créer des modèles
- Utiliser des modèles
- Détails du modèle
- Points de terminaison publics
- 1040 - Type de document
- Annexe C du formulaire 1040 Planification C - type de document
- Annexe D du formulaire 1040 Planification D - type de document
- Annexe E du formulaire 1040 Planification E - type de document
- Type de document 1040x
- 3949a - Type de document
- 4506T - Type de document
- 709 - Type de document
- Type de document 941x
- 9465 - Type de document
- ACORD125 : type de document
- ACORD126 : type de document
- ACORD131 : type de document
- ACORD140 : type de document
- ACORD25 : type de document
- Relevés bancaires : type de document
- Connaissements - type de document
- Certificat de constitution - type de document
- Certificat d'origine - type de document
- Vérifications - type de document
- Certificat de produit pour enfants - type de document
- CMS 1500 - type de document
- Déclaration de conformité de l'UE - Type de document
- États financiers : type de document
- FM1003 - type de document
- I9 : type de document
- Cartes d'identité - Type de document
- Factures - Type de document
- Factures, Australie - type de document
- Factures Chine - type de document
- Factures hébreu - type de document
- Factures, Inde - type de document
- Factures, Japon - type de document
- Livraison des factures - Type de document
- Listes de colisage - type de document
- Fiches de paie - type de document
- Passeports - type de document
- Bons de commande - Type de document
- Reçus - Type de document
- Reçus Japon - Type de document
- Avis de remise - Type de document
- Formulaire UB04 - Type de document
- Factures de services publics - type de document
- Titres des véhicules - type de document
- W2 - Type de document
- W9 - Type de document
- Langues prises en charge
- Tableaux de bord Insights.
- Données et sécurité
- Licences
- Comment
- Résolution des problèmes

Guide de l'utilisateur pour les projets modernes Document Understanding
Fonctionnalités fondamentales
Pour automatiser le traitement des documents, quatre capacités fondamentales sont requises : numérisation, classification, extraction et validation.
La numérisation convertit un document physique en texte lisible par machine, qui peut ensuite être traité numériquement. Bien que la reconnaissance optique de caractères (OCR) soit une partie importante de la numérisation, le processus de numérisation est plus complexe et implique diverses étapes, y compris l’OCR.
Par exemple, dans le cas de documents au format PDF, l’algorithme de numérisation peut faire la distinction entre les PDF numérisés et natifs ou les PDF hybrides contenant des images numérisées et du texte natif. La majeure partie du texte peut être extraite directement d’un document PDF natif, mais dans certains cas, quelques logos peuvent avoir besoin d’être lus à l’aide de l’OCR. Le processus de numérisation peut gérer toutes ces situations pour garantir une précision maximale dans la détection de texte tout en s’exécutant rapidement et efficacement.
Vous pouvez modifier la méthode OCR utilisée dans votre projet dans les paramètres du projet. Pour plus d’informations, consultez la page Configurer les paramètres du projets. Vous pouvez vérifier les moteurs OCR disponibles et les langues prises en charge dans la section Langues prises en charge du manuel utilisateur.
Vous pouvez consulter la page Limites connues pour plus d’informations sur les fichiers pris en charge, connaître les limites de taille d’image et obtenir plus de paramètres.
- Fractionnement
- Classification
L’objectif du fractionnement est de numériser les pages continues d’un document et de les diviser en sous-documents logiques. Un algorithme de fractionnement de documents peut être indépendant du type de document, ce qui signifie qu’il peut fractionner n’importe quel document, qu’il s’agisse d’une facture, d’un contrat ou d’un formulaire de demande.
L’objectif d’une classification est de numériser un document et de décider à quel type de document il appartient. Connaître le type d’un document est important car différents types de documents nécessitent différentes techniques de traitement. Par exemple, une facture doit être traitée par un modèle d’extraction de factures pour garantir que tous les champs pertinents sont extraits.
L’extraction de données est le processus permettant de sélectionner et de récupérer uniquement les informations pertinentes d’un document. L’extraction de données spécifiques d’un long document à l’aide de la manipulation de string peut être difficile. Cependant, Document UnderstandingTM fournit différentes méthodes d’extraction pour différents types et formats de documents. Par exemple, nous voulons uniquement extraire les champs Nom du fournisseur (Vendor Name), Nom de facturation (Billing Name), Date d’échéance (Due Date) et Total d’une facture.
Dans la classification et l’extraction, les robots logiciels utilisent le concept de confiance, qui mesure le niveau de confiance qu’une tâche particulière a été correctement effectuée. La tâche peut consister à reconnaître un type de document, à identifier un champ ou à lire les données qu’il contient. Dans ces cas, l’infrastructure Document Understanding vous permet d’engager un utilisateur humain pour examiner et valider la sortie du robot. Dans le meilleur scénario, l’intervention humaine est utilisée pour entraîner la précision du robot via l’apprentissage automatique.