- Vue d'ensemble (Overview)
- Créer des modèles
- Utiliser des modèles
- Paquets ML
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- Paquet ML - 1040x
- Paquet ML 3949a
- 4506T - Paquet ML
- Paquet ML 709
- Paquet ML 9465
- ACORD125 - Paquet ML
- ACORD126 - Paquet ML
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesAustralie - Paquet ML
- FacturesChine - Paquet ML
- Paquet ML - Factures hébreu
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Fiches de paie - Paquet ML
- Passeports - Paquet ML
- Bons de commande - Paquet ML
- Reçus - Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Points de terminaison publics
- Langues prises en charge
- Données et sécurité
- Logique d’attribution de licences et de charge
- Comment
Guide de l'utilisateur de Document Understanding
Construire
- Charger des documents et les classer automatiquement.
- Charger des documents directement dans des types de documents.
- Gérer les fichiers à partir du projet (ajouter, supprimer des fichiers et ajouter, modifier des balises).
- Annoter des documents.
- Ajouter ou supprimer des champs.
- Bénéficier d’une expérience guidée concernant l’entraînement des modèles de classification et d’extraction à l’aide des recommandations.
Une fois que vous avez créé votre projet et chargé vos documents vers un type de document spécifique, ceux-ci sont automatiquement pré-annotés. Cela se fait à l’aide d’une combinaison de modèles génératifs et spécialisés, basée sur le schéma du type de document. Le schéma permet de définir clairement les champs que vous souhaitez extraire d’un type de document particulier. Pour trouver le schéma du type de document, rendez-vous sur la page Annotation et consultez la section Champs.
Cette fonctionnalité fait actuellement partie d'un processus d'audit et ne doit pas être considérée comme faisant partie de l'autorisation FedRAMP tant que la révision n'est pas finalisée. Consultez ici la liste complète des fonctionnalités en cours de révision.
Pour des informations plus détaillées sur la façon d’annoter vos documents, consultez la page Annoter des documents.
Vous pouvez modifier les paramètres de plusieurs champs à partir du Gestionnaire de type de document.
Pour y accéder, sélectionnez l’icône à trois points ⋮ située à côté du type de document que vous souhaitez modifier, puis sélectionnez Gestionnaire de type de document dans le menu.
- Nom du champ : le nom unique du champ.
- Type de contenu : le type de contenu du champ :
- Chaîne (string) : utilisé pour les noms ou adresses des sociétés, ainsi que les conditions de paiement, ou pour tout autre domaine où vous souhaitez créer la logique d’analyse ou de formatage manuellement, dans le workflow RPA.
- Nombre (number) : utilisé pour les montants ou les quantités, avec une analyse intelligente des séparateurs décimaux/milliers.
- Date : analysez, formatez et unifiez la sortie en utilisant le format AAAA-MM-JJ.
- Téléphone (Phone) : utilisé pour le numéro de téléphone. Le formatage supprime les lettres et les parenthèses, et remplace les espaces par des tirets.
- Numéro d’identification (ID Number) : utilisé pour les codes alphanumériques et les numéros d’identification. Similaire au type de contenu de la chaîne de caractères (string), mais supprime tous les caractères précédant le caractère
:
. Si le numéro d’identification que vous devez extraire peut contenir le caractère:
, choisissez plutôtstring
comme type de contenu afin d’éviter toute perte de données.
- Raccourci : la touche de raccourci de ce champ. Il est possible d’utiliser une seule clé ou une combinaison de deux clés.
- Paramètres avancés : les options disponibles diffèrent en fonction du Type de contenu du champ sélectionné. Sélectionnez le bouton Paramètres avancés du champ que vous souhaitez modifier :
Image 2. Paramètres avancés du type de document
- ID de champ : l’identifiant unique du champ.
- Traitement ultérieur :
- first_span : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la première.
- longest_value : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la valeur composée du plus grand nombre de caractères.
- highest_confidence : si le modèle prévoit plus d’une instance d’un champ dans un document, faites en sorte que le modèle renvoie la valeur avec le degré de confiance le plus élevé.
- exact_match : la prédiction sera considérée comme correcte (note de 1) uniquement si elle correspond exactement à la valeur réelle. Si elle diffère ne serait-ce que d’un seul caractère, elle est considérée comme incorrecte (note de 0). C’est le paramètre par défaut pour tous les champs, sauf pour les champs de type String.
- levenshtein : une prédiction sera considérée comme partiellement correcte en fonction de la distance de Levenshtein entre la prédiction et la valeur réelle. Par exemple, si une valeur de 10 lettres est prédite correctement sauf pour les 2 derniers caractères, alors la note de cette prédiction sera de 0,8.
- Format de date : ce champ, disponible uniquement pour les champs dont le type de contenu est Date, indique comment les dates ambiguës seront analysées et renvoyées :
- Auto
- Style américain : AAAA-JJ-MM
- Style non américain : AAAA-MM-JJ
- Multiligne : cette option doit être cochée pour les champs couvrant plusieurs lignes de texte (adresses ou descriptions), sinon seule la première ligne sera renvoyée.
- Valeurs multiples : le champ renverra une liste avec toutes les valeurs détectées dans le document.
Les modifications apportées aux paramètres de type de document ne seront pas reflétées dans la nouvelle version du projet lorsque vous publiez une nouvelle version du projet avant qu’un nouvel entraînement soit déclenché.
Solution: pour éviter cela, entraînez à nouveau le type de document après avoir apporté des modifications aux champs relatifs au type de document. Vous pouvez procéder à cela en identifiant ou en confirmant d’autres documents de ce type avant de publier la nouvelle version.
Vous pouvez modifier les paramètres du type de document dans la vue des paramètres du modèle. Pour ce faire, sélectionnez Paramètres du modèle.
Vous pouvez modifier les paramètres suivants :
- Modèle de base : les estimations de la taille de l’ensemble de données utilisées dans les actions recommandées dépendent du modèle de base utilisé pour l’entraînement. L’utilisation du modèle de base le plus similaire à votre type de document permettra de réduire la quantité de travail d’annotation requise.
- Nombre de langues : l’estimation de la taille de l’ensemble de données utilisée dans les actions recommandées dépend du nombre de langues dans l’ensemble de données. Un plus grand nombre de langues nécessite généralement d’annoter plus de données.
Vous pouvez recherchez parmi les noms de champs disponibles. Pour cela, utilisez la barre de recherche située en haut à gauche de l’interface du Gestionnaire de type de document. Pour une recherche plus efficace, utilisez la fonction Filtre afin de filtrer par Type de contenu.
Sélectionnez Supprimer à côté du champ que vous souhaitez supprimer.
- Type de document : choisissez le type de document souhaité dans la liste déroulante.
- Date de chargement : choisissez un intervalle de dates de chargement du document.
- Statut : choisissez le statut du document.
Vous pouvez vérifier le score global de votre projet en haut à droite. Ce score tient compte des scores du classifieur et de l’extracteur pour tous les types de documents. Cliquez sur Score du projet pour afficher la section Mesurer (Measure). Vous pourrez accéder à des mesures de performances plus détaillées dans cette section.
Vous pouvez vérifier le score de chaque type de document séparément à partir de la section Type de document. Ce score prend en compte les performances globales du modèle, ainsi que la taille et la qualité de l’ensemble de données.
- Faible (0-49)
- Moyen (50-69)
- Bon (70-89)
- Excellent (90-100)
Sélectionnez Scores détaillés du modèle pour accéder à la section Mesure et obtenir des informations détaillées.