- Vue d'ensemble (Overview)
- Document Processing Contracts
- À propos des contrats de traitement de documents
- Classe Zone
- Interface ActivitéIPersisted
- Classe PrettyBoxConverter
- Interface ActivitéIClassifier
- Interface FournisseurIClassifieurCapacités
- Classe TypeDocumentClassifieur
- Classe RésultatClassifieur
- Classe ActivitéCodeClassifieur
- Classe ActivitéClassifieurNatif
- Classe ActivitéClassifieurCodeAsync
- Classe CapacitéClassifieurTypeDocument
- Classe ActivitéExtracteurCodeAsync
- Classe ActivitéExtracteurCode
- Classe ExtracteurTypeDocument
- Classe ExtracteurDocumentTypeCapacités
- Classe ExtracteurChampCapacités
- Classe ActivitéExtracteurNatif
- Classe ExtracteurRésultat
- Interface FournisseurICapabilities
- Interface ActivitéIExtractor
- Classe ChargeUtileExtracteur
- Énumération PrioritéActionDocument
- Classe DocumentActionData
- Énumération StatutActionDocument
- Énumération TypeActionDocument
- Classe DocumentClassificationActionData
- Classe DocumentValidationActionData
- Classe DonnéesUtilisateur
- Classe Documents
- Classe RésultatDivisionDocument
- Classe ExtensionDom
- Classe Page
- Classe SectionPage
- Classe Polygone
- Classe ConvertisseurPolygones
- Classe de métadonnées
- Classe GroupeMot
- Classe Mot
- Énumération SourceTraitement
- Classe CelluleRésultatsTable
- Classe ValeurTableRésultats
- Classe InformationsColonnesTableRésultats
- Classe TableRésultats
- Énumération Rotation
- Énumération TypeSection
- Énumération TypeGroupeMot
- ProjectionTexteIDocument Interface
- Classe RésultatClassification
- Classe RésultatExtraction
- Classe ResultatsDocument
- Classe ResultatsLimitesDocument
- Classe ResultatsDonnéesPoint
- Classe RésultatsValeur
- Classe ResultatsContenuRéference
- Classe ResultatsValeurJetons
- Classe ResultatsChampDérivé
- Énumération ResultatsSourceDonnées
- Classe ResultatsConstantes
- Classe ChampValeurSimple
- Classe ValeurChampTable
- Classe GroupeDocument
- Classe DocumentTaxonomie
- Classe TypeDocument
- Classe Champ
- Énumération TypeChamp
- Classe InfoLangage
- Classe SaisieMétadonnées
- Énumération TypeTexte
- Classe TypeFieldTypeField Class
- Interface ActivitéISuivi
- ITrainableActivity Interface
- Interface ActivitéClassifieurITrainable
- Interface ActivitéExtracteurITrainable
- Classe ActivitéFormationClassifieurCodeAsync
- Classe ActivitéFormationClassifieurCode
- Classe ActivitéFormationClassifieurNatif
- Classe ActivitéFormationExtracteurCodeAsync
- Classe ActivitéFormationExtracteurCode
- Classe ActivitéFormationExtracteurNative
- Numériseur de Document Understanding
- Document Understanding ML
- Serveur local OCR Document Understanding
- Processus Document Understanding : modèle Studio
- Activités Document Understanding
- À propos du package Document Understanding Digitizer
- Compatibilité du Projet
- Définir le mot de passe du PDF
- Merge PDFs
- Get PDF Page Count
- Extraire le texte PDF (Extract PDF Text)
- Extract PDF Images
- Extract PDF Page Range
- Extraire les données du document
- Create Validation Task and Wait
- Attendre la tâche de validation et reprendre
- Create Validation Task
- Classer un document (Classify Document)
- Créer une tâche de validation de classification (Create Classification Validation Task)
- Créer une tâche de validation de classification et attendre (Create Classification Validation Task and Wait)
- Attendre la tâche de validation de la classification et reprendre
- IntelligentOCR
- À propos du package d'activités IntelligentOCR
- Compatibilité du Projet
- Load Taxonomy
- Digitize Document
- Classify Document Scope
- Keyword Based Classifier
- Intelligent Keyword Classifier
- Present Classification Station
- Create Document Classification Action
- Wait For Document Classification Action And Resume
- Tester l'étendue des classifieurs
- Outil d'entraînement de classifieur basé sur des mots-clés
- Intelligent Keyword Classifier Trainer
- Data Extraction Scope
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Present Validation Station
- Create Document Validation Action
- Wait For Document Validation Action And Resume
- Tester l'étendue des extracteurs
- Export Extraction Results
- Services ML
- OCR
- Contrats OCR
- Notes de publication
- À propos des contrats OCR
- Compatibilité du Projet
- Interface ActivitéIOCR
- Classe OCRCodeAsync
- Classe ActivitéCodeOCR
- Classe ActivitéOCRNatif
- Classe Caractère
- Classe RésultatOCR
- Classe Mot
- Énumération StylesPolice
- Énumération RotationOCR
- Classe OCRCapabilities
- Classe BaseCaptureOCR
- Classe UsineCaptureOCR
- Classe BaseContrôleCapture
- Énumération UtilisationCaptureMoteur
- ScrapeEngineBase
- Classe ScrapeEngineFactory
- Classe ScrapeEngineProvider
- OmniPage
- PDF
- [Non listé] Abbyy
- Notes de publication
- À propos du package d'activités Abbyy
- Compatibilité du Projet
- Reconnaissance optique des caractères ABBYY (ABBYY OCR)
- Reconnaissance optique des caractères ABBYY Cloud (ABBYY Cloud OCR)
- FlexiCapture Classifier
- FlexiCapture Extractor
- FlexiCapture Scope
- Classer un document (Classify Document)
- Traiter le document (Process Document)
- Valider le document (Validate Document)
- Exporter le document (Export Document)
- Obtenir le champ (Get Field)
- Obtenir la table (Get Table)
- Prepare Validation Station Data
- [Non listé] Abbyy intégré
Intelligent Keyword Classifier
UiPath.IntelligentOCR.Activities.DocumentClassification.IntelligentKeywordClassifier
Cette activité permet à tout utilisateur de classer et de fractionner des paquets de documents en types de documents individuels.
Il ne peut être utilisé qu'avec l'activité Classer l'étendue du document (Classify Document Scope) .
Commun
- NomAffichage (DisplayName) - Nom affiché de l'activité.
Entrée
- Clé API : spécifie la clé API du compte. Le champ Clé API est automatiquement prérempli s'il est défini dans les paramètres du projet local ou dans l'infrastructure Document Understanding.
- Point de terminaison (Endpoint) :L'URL du serveur UiPath. Par défaut, le point de terminaison est
https://du.uipath.com/svc/intelligentkeywords
. Pour plus d'informations, consultez Points de terminaison publics Document Understanding. - LearningData : La chaîne contenant les données sérialisées du classifieur. Ce champ ne prend en charge que les chaînes et les variables String.
- LearningFilePath : Chemin d'accès complet au fichier contenant les données du classifieur. Ce champ prend uniquement en charge les chaînes et les variables
String
.Remarque :Un seul des paramètres ci-dessus peut être défini à la fois. Vous pouvez utiliser la chaîne LearningData ou la chaîne LearningFilePath .
LearningFilePath spécifie les emplacements à partir desquels récupérer les données du classifieur.
LearningData contient les informations réelles de ce classifieur.
- Envoyer des documents : envoyez des documents à des fins d'assistance, de résolution des problèmes et d'amélioration des performances.
Divers
- Privé (Private) - Si cette option est sélectionnée, les valeurs des variables et des arguments ne sont plus enregistrées au niveau Détaillé (Verbose).
Remarque : la meilleure pratique consiste à créer un fichier
.json
vide à cet emplacement, puis à utiliser son nom dans le champ CheminFichierApprentissage .
Fractionnement
- ExécuterDivisionDocument : si cette case n’est pas cochée, le modèle n’effectuera pas de fractionnement de document, mais uniquement une classification.
- UtiliserNumérosPage : si cette option est cochée, le mode utilisera la fonctionnalité de numéros de page pour décider où fractionner les documents. Utilisez cette option au cas où la numérotation des pages est susceptible d'améliorer les résultats du fractionnement.
Accédez à l'assistant Gérer l'apprentissage (Manage Learning) pour configurer l'activité Intelligent Keyword Classifier . Le même assistant peut être utilisé pour examiner les données collectées pendant la phase d'apprentissage de la classification des documents, en ouvrant le même assistant avec un chemin de fichier d'apprentissage mis à jour.
Cet assistant permet de configurer et de gérer les données d'entraînement utilisées par l'activité Intelligent Keyword Classifier pour identifier le type de document et classer les documents. Il a été créé pour répondre au besoin de modifier un chemin de fichier. Si une option Learning Data avec une variable est utilisée à la place, elle vous sera demandée si vous souhaitez modifier un chemin de fichier spécifique ou abandonner cette opération.
- Ajoutez une activité Classifieur de mots-clés intelligents (Intelligent Keyword Classifier)/Outil d'entraînement des classifieurs de mots-clés intelligents (Intelligent Keyword Classifier Trainer) à votre workflow.
- Configurez votre activité Intelligent Keyword Classifier en ajoutant le chemin d'un fichier
.json
.- Si aucun chemin n'est fourni et que l'option Gérer l'apprentissage (Manage Learning) est sélectionnée, une fenêtre contextuelle s'affiche, demandant une entrée Chemin d'accès au fichier d'apprentissage (Learning File Path). Une fois le chemin fourni, l'assistant s'ouvre.
- Une variable peut être ajoutée à la place d'un fichier
.json
, mais, comme l'assistant ne peut pas appliquer le modèle d'apprentissage à une variable LearningData, il demande un chemin de fichier spécifique qui peut être modifié.
-
Cliquez sur l'option Gérer l'apprentissage (Manage Learning).
- La fenêtre de l'assistant (Wizard) s'ouvre.
- La fenêtre de l'assistant (Wizard) s'ouvre.
- Si aucun chemin n'est fourni et que l'option Gérer l'apprentissage (Manage Learning) est sélectionnée, une fenêtre contextuelle s'affiche, demandant un chemin d'accès au fichier d'apprentissage (Learning File Path). Une fois le chemin fourni, l'assistant s'ouvre.
.json
n'est disponible, vous pouvez ajouter le nom d'un nouveau fichier .json
directement dans l'activité et le fichier .json
sera automatiquement créé dans le dossier spécifié.
La capture d'écran ci-dessous présente un type de document qui a été entraîné, un qui ne l'a pas été et un autre qui a été entraîné et ouvert pour être consulté ou supprimé.
Pour les types de document qui n'ont pas encore été entraînés, l'entraînement au moment de la conception peut être effectuée à l'aide de l'option Commencer l’entraînement (Start Training). Pour les types de documents qui ont déjà été entraînés, vous pouvez soit le supprimer pour recommencer en utilisant cette option , ou effectuer un entraînement supplémentaire (se cumulant à celui déjà existant) à l'aide de l'option de modification .
Une fois qu'un nouvel entraînement a été initié, un nouvel écran s'affiche demandant les fichiers d'entraînement et le moteur OCR à utiliser. Le moteur OCR par défaut est UiPath Document OCR.
Chaque moteur OCR est livré avec son propre ensemble d'options personnalisées.
Les moteurs OCR suivants ne prennent pas en charge les documents pivotés et ne doivent pas être utilisés pour traiter de tels documents :
- Reconnaissance optique des caractères Microsoft (Microsoft OCR)
- Tesseract OCR
L'option Appliquer l'OCR au PDF détermine si le processus OCR doit être appliqué ou non aux documents PDF. Trois options sont disponibles dans la liste déroulante : True, Falseet Auto.
S’il est défini sur Vrai, l’OCR est appliqué à toutes les pages PDF du document. S’il est défini sur Faux, seul le texte saisi numériquement est extrait. Lorsqu’il est défini sur Auto, il évalue si le document nécessite l’application de l’algorithme OCR en fonction du document d’entrée.
Si le package UiPath.IntelligentOCR.Activities a été mis à jour vers la v5.1.0, le paramètre ForceApplyOCR a été remplacé par ApplyOcrOnPDF. Voici la compatibilité entre les anciens et les nouveaux paramètres :
• ForceApplyOCR = True est remplacé par ApplyOcrOnPDF = Yes
• ForceApplyOCR = False est remplacé par ApplyOcrOnPDF = Auto
• ForceApplyOCR = Empty est remplacé par ApplyOcrOnPDF = Auto
• ForceApplyOCR = <user-defined variable> est en cours de remplacement par ApplyOcrOnPDF = Auto
Seules les données d'entraînement des types de documents qui ont été entraînés sont éligibles pour l'exportation. Les types de documents qui n'ont pas été entraînés ne peuvent pas être sélectionnés.
Exportation des données d'entraînement
Vous pouvez exporter les données d'entraînement en suivant ces étapes :
- Sélectionnez les types de documents qui ont été formés.
- Cliquez sur le bouton Exporter (Export).
- Si vous avez des modifications non enregistrées, le message suivant s'affiche.
- Cliquez sur Oui (Yes).
- Enregistrez l'archive des données d'entraînement sous le nom souhaité.
- Un message s'affiche indiquant le nombre d'ensembles de données d'entraînement de type de document ayant été exportés. Par exemple :
- Cliquez sur OK pour revenir à l'écran principal de l'assistant.
Importation des données d'entraînement
Vous pouvez importer des données d'entraînement en suivant ces étapes :
- Cliquez sur le bouton Importer (Import).
- Sélectionnez l'archive des données d'entraînement et cliquez sur Ouvrir (Open).
- Sélectionnez les types de documents souhaités.
- Cliquez sur le bouton Importer (Import).
- Les données d'entraînement sont importées.
Le tableau ci-dessous explique chaque message affiché lors de l'importation des données d'entraînement :
Import Type |
Message affiché |
---|---|
Nouveau type de document et vecteurs de mots |
Ce type de document sera ajouté à la taxonomie |
Nouveau vecteur de mot (aucun n'a été défini précédemment) |
S/O |
Type de document identique et vecteurs de mots |
Le vecteur mot de ce type de document sera écrasé |
Intégration de Document Understanding
L’activité Classifieur intelligent de mots clés (Intelligent Keyword Classifier) fait partie des Solutions Document Understanding. Consultez le document Document Understanding Guide pour plus d'informations.