- Notes de publication de Document Understanding
- Notes de version des paquets ML et des points de terminaison publics
Notes de publication de Document Understanding
Octobre 2021
Améliorations
Les champs avec moins de 10 documents libellés peuvent être supprimés sans confirmation.
Résolution de bogues
- Correction d'un bug qui affectait les fichiers importés avec le même nom.
- Correction d'un bug dans Google OCR qui générait une erreur sur les documents avec des pages vides.
- Correction d'un bug qui affichait mal le nombre de fichiers dans la boîte de dialogue Importer des données (Import data) pour les importations d'ensembles de données Validation Station ou Data Manager.
Problèmes connus
- L'exportation par défaut (au niveau document) ne fonctionne qu'avec les paquets ML version 21.10 ou ultérieure dans AI Center. La version apparaît dans la colonne Journal des modifications (Change log) de la vue Paquets ML (ML Packages) d'AI Center. Pour les versions plus anciennes, veuillez utiliser la case à cocher Exportation rétrocompatible (Backwards-compatible export) dans la boîte de dialogue Exporter les fichiers (Export files).
Prise en charge de documents multi-pages
Data Manager prend désormais en charge les documents multi-pages. Il s'agit d'une mise à jour majeure ayant un impact sur tous les aspects d'un flux d'apprentissage automatique :
Importer : vous pouvez télécharger des documents jusqu'à 150 pages ; pour contourner cette limite, au risque d'une expérience de libellé instable, cochez la case Activer les documents volumineux (Enable large documents) dans la boîte de dialogue Importer des données (Import Data).
Prébalisage (Prelabeling) : le document est entièrement prébalisé, produisant les mêmes résultats que dans le workflow RPA, mais prenant plus de temps dans le cas de documents plus volumineux. Voir également les problèmes connus ci-dessous.
Libellé : libellé plus pratique grâce au défilement naturel dans les pages du document.
Exporter : effectué par défaut au niveau document. Si vous souhaitez exporter les documents au niveau page, cochez la case Exportation rétrocompatible (Backwards-compatible export) dans la boîte de dialogue Exporter les fichiers (Export files) ; ceci est également recommandé si la précision du modèle produite par l'export par défaut est inférieure aux attentes.
Entraînement : dans la plupart des scénarios, les modèles entraînés avec les nouveaux ensembles de données exportés au niveau document doivent avoir les mêmes performances avec l'exportation rétrocompatible au niveau page. Cependant, si les modèles produisent des résultats en deçà des attentes, nous vous recommandons de réessayer l'entraînement en utilisant également une exportation rétrocompatible, au cas où elle pourrait générer de meilleurs résultats.
Évaluation : il s'agit de la principale motivation de la fonctionnalité de prise en charge des documents multi-pages, car les scores des évaluations reflètent plus précisément les performances d'exécution. Veuillez noter que cela suppose que chaque document multi-pages contient un seul document logique. Par exemple, si vous importez des paquets de fichiers de 20 pages contenant 10 factures de 2 pages chacune, ils ne doivent pas être utilisés pour les ensembles d'évaluation. Cependant, ils peuvent être utilisés pour les ensembles d'entraînement, mais uniquement si vous exportez avec l'option Rétrocompatible (Backwards-compatible) activée.
Améliorations
Prise en charge du schéma d'exportation à l'aide du bouton radio dans la boîte de dialogue Exporter les fichiers (Export files).
Taille d'importation maximale augmentée à 2 Go ou 2 000 pages.
Ensemble de test renommé Ensemble d'évaluation pour plus de cohérence avec les pipelines d'évaluation d'AI Center.
Le bouton Prévoir (Predict) apparaît par défaut dans la barre de gestion, mais les paramètres de prébalisage doivent être configurés pour que le bouton soit activé.
Suppression de toutes les restrictions sur le nombre d'échantillons par champ des exports des Ensembles d'évaluation.
Ajout du nom de session Data Manager à côté du nom de fichier dans la barre de gestion pour identifier plus facilement la session sur laquelle vous travaillez au cas où plusieurs onglets Data Manager sont ouverts en même temps.
Documents en chinois pris en charge.
Améliorations de l'accessibilité.
Localisation pour le Portugais-Portugal, Russe et Turc.
Problèmes connus
- Le modèle Factures Chine ne met pas en forme les dates chinoises au format standard aaaa-mm-jj. Cela sera amélioré dans les prochaines versions.
- L'analyse des dates de Data Manager est incohérent avec l'analyse effectuée par les modèles ML au moment de l'exécution. Si vous remarquez que les dates ne sont pas analysées correctement dans Data Manager, elles seront probablement analysées correctement dans la prédiction du modèle au moment de l'exécution. C'est un problème connu qui sera résolu dans un prochain correctif.
- Pour le moment, l'utilisation de l'option Prévoir (Predict) avec les prébalisages Points de terminaison publics (Public Endpoints) ne prébalise que les 10 premières pages d'un document. Il s'agit d'un problème connu et une amélioration sera incluse dans un futur correctif. Cependant, utiliser l'option Prévoir (Predict) avec des compétences ML dans AI Center n'impose pas une telle limitation.