- Vue d'ensemble (Overview)
- Processus Document Understanding
- Didacticiels de démarrage rapide
- Composants de l'infrastructure
- Vue d'ensemble (Overview)
- Activités Document Understanding
- Vue d’ensemble de classification de document
- Assistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)
- Intelligent Keyword Classifier
- Keyword Based Classifier
- Machine Learning Classifier
- Classifieur génératif
- Activités liées à la classification des documents
- Assistant de configuration des classifieurs (Configure Classifiers Wizard) de l'activité Tester l'étendue des classifieurs (Train Classifier Scope)
- Vue d’ensemble de l'entraînement de la classification des documents
- Activités liées à l'entraînement de la classification des documents
- Machine Learning Classifier Trainer
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Vue d’ensemble de l’extraction des données
- Activités liées à l'extraction de données
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- Regex Based Extractor
- Consommation de données
- Appels API
- Paquets ML
- Vue d'ensemble (Overview)
- Paquets ML - Document Understanding
- Classifieur de documents - Paquet ML
- Paquets ML avec capacités OCR
- 1040 - Paquet ML
- Annexe C du formulaire 1040 Planification C - Paquet ML
- 1040 Planification D - Paquet ML
- Annexe E du formulaire 1040 - Paquet ML
- Paquet ML - 1040x
- Paquet ML 3949a
- 4506T - Paquet ML
- Paquet ML 709
- Paquet ML 941x
- Paquet ML 9465
- 990 - Paquet ML - Aperçu
- ACORD125 - Paquet ML
- ACORD126 - Paquet ML
- ACORD131 - Paquet ML
- ACORD140 - Paquet ML
- ACORD25 - Paquet ML
- États financiers - Paquet ML
- Connaissement - Paquet ML
- Paquet ML - Certificat de constitution
- Paquet ML - Certificat d'origine
- Chèques - Paquet ML
- Paquet ML - Certificat de produit pour enfants
- CMS1500 - Paquet ML
- Paquet ML - Déclaration de conformité de l’UE
- États financiers - Paquet ML
- FM1003 - Paquet ML
- I9 - Paquet ML
- Cartes d’identité - Paquet ML
- Factures - Paquet ML
- FacturesChine - Paquet ML
- Paquet ML - Factures hébreu
- FacturesInde - Paquet ML
- FacturesJapon - Paquet ML
- Paquet ML - Livraison des factures
- Listes de colisage - Paquet ML
- Passeports - Paquet ML
- Fiches de paie - Paquet ML
- Bons de commande - Paquet ML
- Reçus – Paquet ML
- RemittanceAdvices - Paquet ML
- Formulaire UB04 - Paquet ML
- Factures de services publics - Paquet ML
- Titres de véhicule - Paquet ML
- W2 - Paquet ML
- W9 - Paquet ML
- Autres paquets ML prêts à l’emploi
- Points de terminaison publics
- Prérequis matériels
- Pipelines
- Document Manager
- Services OCR
- Langues prises en charge
- Apprentissage profond
- Tableaux de bord Insights.
- Document Understanding déployé dans Automation Suite
- Document Understanding déployé dans une version AI Center autonome
- Licences
- Activités
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.IntelligentOCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding user guide
Diagnostic du jeu de données
L’entraînement d’un nouveau modèle à partir de zéro peut parfois être une tâche très exigeante.
Dataset Diagnostics feature helps you build effective datasets by providing feedback and hints of the steps needed to achieve good accuracy for the trained model.
Situé dans la barre de gestion du gestionnaire de documents, Dataset Diagnostics fournit des conseils visuels et écrits tout au long du processus d’apprentissage d’un nouveau modèle.
Il existe trois niveaux d’état de l’ensemble de données affichés dans la barre de gestion :
- Red - More labelled training data is required.
- Orange - More labelled training data is recommended.
- Green - The needed level of labelled training data is achieved.
Si aucun champ n’est créé dans la session, le niveau d’état de l’ensemble de données est grisé.
Vous trouverez de plus amples informations sur chaque statut dans le menu contextuel Diagnostics des ensembles de données. Sélectionnez le bouton Diagnostics des ensembles de données pour ouvrir la fenêtre correspondante.

Diagnostic du jeu de données
Dataset tab
Fournit des informations sur les documents utilisés pour l'entraînement du modèle, le nombre total de pages importées et le nombre total de pages labellisées.
La séparation sur la barre d'état des couleurs est déterminée par le nombre recommandé de pages labellisées nécessaires à l'apprentissage du modèle et par l'état réel de votre ensemble de données, y compris les données labellisées et non labellisées. Le survol de chaque couleur de la barre d’état fournit des informations supplémentaires, dans une info-bulle, sur chaque état.
Les nombres disponibles dans l’onglet Ensemble de données sont calculés en fonction du nombre de champs standard et de champs d’élément de la session d’entraînement.
- Red - The dataset requires more labelled data for training the model.
- Orange - For an increased level of accuracy on the trained model, more labelled data is recommended. You can choose to proceed further with the actual data, but the level of accuracy is not as high as wanted.
- Green - The labelled data is enough for the dataset to be trained accordingly and to receive accurate information.
Fields tab
Fournit des informations sur chaque champ étiqueté, plus précisément le nombre total de pages d’entraînement sur lesquelles l’étiquette est étiquetée, le nombre total de documents évalués avec le champ étiqueté et son statut pour l’ensemble d’entraînement actuel.

- Field - The name of the labelled field.
- Training Pages - The number of pages in the Training+Validation set on which the field is labelled.
- Evaluation Documents - The number of documents in the Evaluation set on which this field is labelled.
- Status - The status of each field, marked by three options, Red, Orange, and Green.
Here are all the options available for the Status bar:
-
Red - There is insufficient data about the field, more labels being required.

-
Orange - More pages need to be labelled for the results to be relevant.

-
Green - There are enough labelled pages for the results to be relevant.

Refresh and Close buttons are applicable for both tabs, meaning that if the Refresh button is selected on the Dataset tab, the Fileds tab is also refreshed.
- Refresh - Use the refresh option after alterations have been made to the dataset, whether on the number of total pages or the number of labelled pages. The popup menu automatically refreshes every few minutes and it takes place on both tabs, simultaneously. Use this function when a refresh is needed outside the automatic window.
- Close - Once all the needed information is gathered, close the menu by using the Close button. The entire popup menu is closed, no matter the tab from which the button is selected.
Onglet Calculatrice
L'onglet Calculatrice (Calculator) fournit les mêmes informations que celles que vous avez déjà ajoutées lors de la création d'un nouveau type de document.

Vous pouvez utiliser le calculateur d'ensemble de données pour modifier des parties des informations ajoutées initialement, lors de la création du type de document.
Vous pouvez modifier les champs suivants à l'aide du calculateur d'ensemble de données :
- Type de document prêt à l’emploi
- Nombre de langues
- Nombre de mises en page
Les champs suivants de l'onglet Calculatrice (Calculator) sont en lecture seule et leurs valeurs sont déterminées par l'intersection du type de document prêt à l'emploi utilisé et des champs du schéma actuel :
- Champs réguliers prêts à l’emploi
- Champs de colonne prêts à l’emploi
- Champs de classification prêts à l'emploi
La modification de l'un des champs mentionnés a un impact sur la taille recommandée de l'ensemble de données. L'onglet Ensemble de données (Dataset) de la fenêtre contextuelle actuellement ouverte est mis à jour et passe au statut vert/jaune/rouge en fonction de la nouvelle taille recommandée. Une fois les modifications enregistrées, l'indicateur global de Diagnostic de l'ensemble de données (Dataset Diagnosis) prend en compte le nouvel état de santé de l'onglet Ensemble de données (Dataset).
Supposons que, lors de la création initiale du type de document, vous ayez sélectionné Factures (Invoices) dans le champ Type de document prêt à l'emploi (Out-of-the-box document type). Si vous changez votre choix initial pour quelque chose d'autre, les reçus par exemple, alors l'ensemble de données assimile les informations pour les deux types de documents et affiche les informations qui recoupent les deux types (factures et reçus) que vous avez sélectionnés.
Si certains champs ne sont présents que dans l'un des modèles, ils apparaissent dans les champs réguliers personnalisés ou les champs de colonnes personnalisés, car ces modifications s'appliquent aux champs réguliers et aux champs de classification.