document-understanding

2020.10

false

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Obsolète

Guide de l'utilisateur de Document Understanding

PRODUIT :

Dernière mise à jour 4 févr. 2025

Importer des documents

AI Center ne prend pas en charge les noms de fichiers contenant des caractères spéciaux, nous vous recommandons donc vivement, avant d'importer des documents dans Data Manager, de vous assurer que leurs noms ne contiennent que des caractères latins, des chiffres, des tirets (-) et des tirets bas (_).

Il existe 4 types d'importation pris en charge dans Data Manager :

Importation de schémas
Importation de documents bruts
Importation d’un ensemble de données du Data Manager
Importation de l'ensemble de données Machine Learning Extractor Trainer (fonctionnalité PREVIEW)

Importation de schémas

Si vous souhaitez lancer une nouvelle instance de Data Manager en utilisant le même schéma qu'une instance existante, vous pouvez suivre ces étapes :

Entrez une string aléatoire dans le filtre de l'instance existante, de sorte qu'aucun document n'apparaisse plus à l'écran
Cliquez sur le bouton Exporter. Un fichier zip sera exporté.
Importez le fichier zip directement dans la nouvelle instance de Data Manager (ne décompressez pas). Le schéma sera importé.

Vous pouvez également utiliser l'un des schémas prédéfinis fournis dans la section Configuration du Data Manager de cette documentation.

Importation de documents bruts

Les types de documents pouvant être importés pour la labellisation sont : .pdf, .tiff, .png, .jpg. Les étapes sont :

Cliquez sur Importer (Import). La fenêtre Importer des données (Import Data) s'affiche.
Indiquez un nom de lot dans le champ Nom du lot (Batch Name). Cela vous permet de filtrer et de retrouver ultérieurement facilement ces documents à l'aide de la liste déroulante Filtrer (Filter).
Si vous souhaitez utiliser ce lot de documents pour entraîner un modèle ML, laissez la case Faites-en un test (Make this a test set) décochée.
Si vous souhaitez utiliser ce lot de documents pour évaluer un modèle ML (c'est-à-dire qui mesure ses performances), cochez la case Faites-en un test (Make this a test set). Cela garantit que les données sont ignorées par les pipelines d'entraînement.
Téléchargez ou glissez-déposez un fichier ou un ensemble de fichiers dans la section Parcourir ou déposer des fichiers (Browse or drop files).
Tout type de fichier est accepté. L'application les inspecte et indique combien d'entre eux peuvent être importés. Les fichiers .zip sont également acceptés. L'application décompresse l'archive et parcourt les dossiers de manière récursive pour trouver tous les fichiers à l'intérieur.

L'importation d'un fichier zip d'ensemble de données exporté à partir d'une autre instance de Data Manager importera les documents avec les libellés. Cela ne fonctionne que si le schéma de l'ensemble de données est le même ou est un sous-ensemble du schéma préexistant dans le Data Manager.

Importation d’un ensemble de données du Data Manager

Pour importer un ensemble de données qui a été labellisé précédemment sur une autre instance de Data Manager, vous devez obtenir le fichier zip qui a été exporté à l'origine et l'importer directement dans la nouvelle instance de Data Manager. Si votre nouvelle instance de Data Manager est complètement vide (aucune donnée et aucun champ défini), alors les données et le schéma seront importés. Si votre nouvelle instance Data Manager a déjà des champs définis, l'ensemble de données nouvellement importé doit avoir les mêmes champs, ou un sous-ensemble de ces champs. Dans le cas contraire, l'importation sera rejetée.

Importation de l'ensemble de données de la station de validation (fonction Aperçu)

Étant donné que votre workflow RPA traite les documents à l'aide d'un modèle ML existant, certains documents peuvent nécessiter une validation humaine à l'aide de l'activité Station de validation (Validation Station) (disponible sur les robots surveillés ou dans le navigateur à l'aide d'Action Center Orchestrator).

Les données validées générées dans la Station de validation peuvent être exportées à l'aide de l'activité Machine Learning Extractor Trainer et peuvent être utilisées pour entraîner les modèles ML à l'aide de la fonctionnalité décrite ici.

Les étapes impliquées sont :

Configurez ML Extractor Trainer pour sortir les données dans un dossier avec le chemin <Entraîneur/Sortie/Dossier> (utilisez n'importe quel chemin de dossier vide).
Exécutez le workflow RPA, y compris la station de validation et ML Extractor Trainer.
ML Extractor Trainer créera 3 sous-dossiers nommés : documents, metadata (métadonnées) et predictions à l'intérieur du dossier de sortie.
Compressez le <Trainer/Output/Folder> pour obtenir un fichier zip tel que TrainerOutputFolder.zip
Importez le fichier zip dans Data Manager. Data Manager détectera que l'importation contient des données produites par ML Extractor Trainer et importera les données en conséquence.
Exportez les données comme d'habitude et téléchargez-les vers AI Center.
Lancez le pipeline d'entraînement ou le pipeline complet et assurez-vous de sélectionner le package ML et la version que vous souhaitez peaufiner.