- Vue d'ensemble (Overview)
- Démarrage
- Activités (Activities)
- Tableaux de bord Insights.
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d'ensemble (Overview)
- Activités Document Understanding
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Classifieur génératif
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Consommation de données
- Appels API
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- Paquet ML - 1040x
- Paquet ML 3949a
- 4506T - Paquet ML
- Paquet ML 709
- Paquet ML 941x
- Paquet ML 9465
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesAustralie - Paquet ML
- FacturesChine - Paquet ML
- Paquet ML - Factures hébreu
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Fiches de paie - Paquet ML
- Passeports - Paquet ML
- Bons de commande - Paquet ML
- Reçus - Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Limitations du trafic
- Configuration OCR
- Pipelines
- Services OCR
- Langues prises en charge
- Apprentissage profond
- Licences
Guide de l'utilisateur de Document Understanding
Keyword Based Classifier
Le classifieur basé sur des mots-clés est un classifieur simple qui recherche des séquences de chaînes répétitives dans un fichier donné afin d'effectuer une classification de documents.
L'algorithme est construit autour du concept de titres de documents et part du principe que l'apparence des titres des types de documents qui en comportent varie relativement peu dans les documents.
Lors de la classification d'un fichier dans un type de document, le classifieur basé sur des mots-clés (Keyword Based Classifier) :
-
trouve la meilleure chaîne ou collection de chaînes correspondante à partir de ses données d'apprentissage, qui s'applique à un type de document de taxonomie. La confiance est calculée sur la base :
- du degré de correspondance au début du document,
- du nombre de fois que la correspondance a été confirmée par les travailleurs de la connaissance et confortée dans les données d'apprentissage.
- des rapports sur le type de document ayant obtenu le score le plus élevé, avec la configuration correspondante sous-jacente.
Le classifieur basé sur des mots-clés (Keyword Based Classifier) peut fonctionner avec une seule entrée de chaîne (une chaîne considérée comme une entrée dans les données d'apprentissage utilisée par le classifieur) ou avec une entrée contenant plusieurs chaînes (deux chaînes ou plus qui forment une seule entrée). En cas de chaîne multiple, le classifieur applique l'algorithme de correspondance sur chaque chaîne, puis calcule une moyenne simple des confiances des correspondances identifiées.
Prenons l'exemple ci-dessous :
- si une entrée contient une seule chaîne, par exemple, "this is my match", le classifieur basé sur les mots-clés recherche et évalue cette chaîne comme une correspondance potentielle de type de document (selon le type de document auquel la chaîne est attribuée).
- si une entrée contient trois chaînes, par exemple, ["this is a match", "needs more evidence for filtering", "yet another one"], le classifieur basé sur les mots-clés recherche et évalue chacune des trois chaînes, puis calcule une moyenne simple des confiances correspondantes à des fins de rapport.
L'ensemble de mots-clés peut être défini dans une ligne ou en utilisant plusieurs lignes. Lorsqu'il est défini dans une ligne, il identifie l'entrée donnée, par exemple, si x, y et z sont répertoriés comme mots-clés, alors la fonction de recherche recherchera x et y et z.
Avoir plusieurs lignes définies signifie que la fonction de recherche recherche les mots-clés répertoriés dans la première ligne, ou la deuxième ligne, ou la troisième jusqu'à ce qu'elle couvre toutes les lignes et identifie les meilleures correspondances, augmentant ainsi le score de confiance en ayant simplement identifié plus de correspondances à partir de plus de mots-clés disponibles.
Nous vous conseillons d'utiliser ce classifieur si :
- vos fichiers contiennent chacun un seul et unique type de document (aucun fractionnement de fichier n'est donc nécessaire) ;
- vos dossiers contiennent des preuves liées au type de document dans les trois premières pages du dossier.
Aucune exigence particulière pour utiliser le classifieur basé sur les mots-clés (Keyword Based Classifier).
Pour plus d'informations sur l'entraînement d'un classifieur, consultez cette page qui décrit le processus d'utilisation de l'assistant Gérer l'apprentissage (Manage Learning wizard).