- Démarrage
- Composants de l'infrastructure
- Vue d’ensemble de l’extraction des données
- Assistant de configuration des extracteurs (Configure Extractors Wizard) de l'activité Étendue de l'extraction de données (Data Extraction Scope)
- Regex Based Extractor
- Form Extractor
- Extracteur de formulaires intelligents
- Extracteur d'apprentissage automatique
- FlexiCapture Extractor
- Activités liées à l'extraction de données
- Document Understanding dans AI Center
- Pipelines
- Paquets ML
- Data Manager
- Services OCR
- Licences
- Référence (Reference)
Guide de l'utilisateur de Document Understanding
Importer des documents
AI Center ne prend pas en charge les noms de fichiers contenant des caractères spéciaux, nous vous recommandons donc vivement, avant d'importer des documents dans Data Manager, de vous assurer que leurs noms ne contiennent que des caractères latins, des chiffres, des tirets (-) et des tirets bas (_).
Il existe 4 types d'importation pris en charge dans Data Manager :
- Importation de schémas
- Importation de documents bruts
- Importation d’un ensemble de données du Data Manager
- Importation de l'ensemble de données Machine Learning Extractor Trainer (fonctionnalité PREVIEW)
Si vous souhaitez lancer une nouvelle instance de Data Manager en utilisant le même schéma qu'une instance existante, vous pouvez suivre ces étapes :
- Entrez une string aléatoire dans le filtre de l'instance existante, de sorte qu'aucun document n'apparaisse plus à l'écran
- Cliquez sur le bouton Exporter. Un fichier zip sera exporté.
- Importez le fichier zip directement dans la nouvelle instance de Data Manager (ne décompressez pas). Le schéma sera importé.
Vous pouvez également utiliser l'un des schémas prédéfinis fournis dans la section Configuration du Data Manager de cette documentation.
.pdf
, .tiff
, .png
, .jpg
. Les étapes sont :
- Cliquez sur Importer (Import). La fenêtre Importer des données (Import Data) s'affiche.
- Indiquez un nom de lot dans le champ Nom du lot (Batch Name). Cela vous permet de filtrer et de retrouver ultérieurement facilement ces documents à l'aide de la liste déroulante Filtrer (Filter).
- Si vous souhaitez utiliser ce lot de documents pour entraîner un modèle ML, laissez la case Faites-en un test (Make this a test set) décochée.
- Si vous souhaitez utiliser ce lot de documents pour évaluer un modèle ML (c'est-à-dire qui mesure ses performances), cochez la case Faites-en un test (Make this a test set). Cela garantit que les données sont ignorées par les pipelines d'entraînement.
- Téléchargez ou glissez-déposez un fichier ou un ensemble de fichiers dans la section Parcourir ou déposer des fichiers (Browse or drop files).
Tout type de fichier est accepté. L'application les inspecte et indique combien d'entre eux peuvent être importés. Les fichiers
.zip
sont également acceptés. L'application décompresse l'archive et parcourt les dossiers de manière récursive pour trouver tous les fichiers à l'intérieur.L'importation d'un fichier zip d'ensemble de données exporté à partir d'une autre instance de Data Manager importera les documents avec les libellés. Cela ne fonctionne que si le schéma de l'ensemble de données est le même ou est un sous-ensemble du schéma préexistant dans le Data Manager.
Pour importer un ensemble de données qui a été labellisé précédemment sur une autre instance de Data Manager, vous devez obtenir le fichier zip qui a été exporté à l'origine et l'importer directement dans la nouvelle instance de Data Manager. Si votre nouvelle instance de Data Manager est complètement vide (aucune donnée et aucun champ défini), alors les données et le schéma seront importés. Si votre nouvelle instance Data Manager a déjà des champs définis, l'ensemble de données nouvellement importé doit avoir les mêmes champs, ou un sous-ensemble de ces champs. Dans le cas contraire, l'importation sera rejetée.
Étant donné que votre workflow RPA traite les documents à l'aide d'un modèle ML existant, certains documents peuvent nécessiter une validation humaine à l'aide de l'activité Station de validation (Validation Station) (disponible sur les robots surveillés ou dans le navigateur à l'aide d'Action Center Orchestrator).
Les données validées générées dans la Station de validation peuvent être exportées à l'aide de l'activité Machine Learning Extractor Trainer et peuvent être utilisées pour entraîner les modèles ML à l'aide de la fonctionnalité décrite ici.
Les étapes impliquées sont :
- Configurez ML Extractor Trainer pour sortir les données dans un dossier avec le chemin <Entraîneur/Sortie/Dossier> (utilisez n'importe quel chemin de dossier vide).
- Exécutez le workflow RPA, y compris la station de validation et ML Extractor Trainer.
- ML Extractor Trainer créera 3 sous-dossiers nommés : documents, metadata (métadonnées) et predictions à l'intérieur du dossier de sortie.
- Compressez le <Trainer/Output/Folder> pour obtenir un fichier zip tel que TrainerOutputFolder.zip
- Importez le fichier zip dans Data Manager. Data Manager détectera que l'importation contient des données produites par ML Extractor Trainer et importera les données en conséquence.
- Exportez les données comme d'habitude et téléchargez-les vers AI Center.
- Lancez le pipeline d'entraînement ou le pipeline complet et assurez-vous de sélectionner le package ML et la version que vous souhaitez peaufiner.