Document Understanding

document-understanding

2022.4

true

Notes de publication de Document Understanding

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

2022.4.0

Date de publication Document Manager sur site : 23 mai 2022

Tenez-vous au courant de toutes les dernières nouvelles concernant Document Manager en parcourant la prochaine liste de modifications qui ont eu lieu depuis la dernière version LTS jusqu'à maintenant.

Nouveautés

Data Manager change son nom en Document Manager.

Une nouvelle option est disponible, vous permettant de supprimer définitivement des fichiers individuels. L’option se trouve dans la liste déroulante qui contient également l’option de téléchargement.

Vous avez maintenant la possibilité de renommer les champs précédemment créés.

La recherche à l’intérieur d’un document est désormais possible, ce qui vous permet de rechercher des mots dans votre document actuel.

Les données recueillies lors de l’importation d’un ensemble de données sont désormais intégrées dans les fichiers JSON du champ du sous- ensemble, ce qui signifie que si vous modifiez manuellement le fichier ou le supprimez complètement de l’ensemble de données, cela n’a pas d’impact sur l’apprentissage du modèle.

Les documents supprimés sont désormais exclus de la déduplication, ce qui signifie que vous pouvez désormais importer le même document deux fois. Les documents supprimés sont également exclus de la recherche ou du filtrage, de sorte qu'il recherche uniquement les documents non supprimés, sauf si vous utilisez le mot clé deleted.

La vue Document a reçu de nouveaux conseils de démarrage.

Améliorations

Remarque : un déploiement local qui utilise l’installation de SQL Server avec l’option de recherche en texte intégral désactivée nécessite, au moment de l’installation, un redémarrage du service de recherche en texte intégral pour l’activer. Cela peut être fait en exécutant la commande EXEC sp_fulltext_service 'restart_all_fdhosts' par un administrateur de base de données disposant des autorisations appropriées sur le serveur.

Lors de l'utilisation de la fonctionnalité Prévoir (Predict) avec Document Manager, les données balisées qui n'ont pas été modifiées manuellement par l'utilisateur sont remplacées par les valeurs reçues du modèle.

Ajout d'info-bulles plus descriptives sur les types de documents d'entraînement, de validation et d'évaluation.

La boîte de dialogue de modification de champ pour les colonnes et les champs réguliers a été restructurée. Les options Traitement ultérieur (Post processing), Multipage, Évaluation (Scoring) et Couleur (Color) ont été déplacées vers l'onglet Avancé (Advanced). Le reste des options se trouve dans l'onglet Général.

Amélioration de la vitesse d'importation des documents en double.

Les champs de classification apparaissent désormais dans l'ordre dans lequel ils ont été créés.

Résolution de bogues

Correction d'un problème connu qui provoquait l'échec de la recherche ou du téléchargement d'un document contenant des caractères nécessitant un encodage d'URL (&, ,, +, #, ') dans son nom de fichier avec requête invalide.
Correction d'un bogue qui entraînait l'échec de la fonctionnalité Prévoir (Predict) sur les documents contenant du texte très dense.
Suppression de la limite d'importation de 2 000 documents par session. Vous pouvez maintenant avoir plus de 2 000 documents dans une session, compte tenu de la limite de 2 000 pages par importation.
Correction d'un bug qui empêchait de sélectionner plus de 3 cases en appuyant sur ctrl ou shift.
Correction d'un bogue qui provoquait le blocage d'une importation dans le traitement jusqu'à son expiration après le redémarrage du pod, mais la tâche ne reprenait pas.
Correction d’un bogue qui empêchait la fonction Prévoir (Predict) d’extraire des données de l’ensemble du document. Veuillez noter que la limite de 10 pages lors de l’utilisation de la fonction avec les points de terminaison publics est toujours en place.
Correction d'un bogue pour Microsoft Read OCR où les points de terminaison correspondant aux sous-domaines *.cognitiveservices.azure.com lançaient une erreur OCR endpoint is not valid.
Correction d'un bug où l'importation de l'ensemble de données Data Manager mélangeait les pages des documents de plus de 10 pages.
Correction d'un bug qui entraînait le téléchargement ou l'export d'un ensemble de données vide ou uniquement d'un petit sous-ensemble de l'ensemble de données complet lorsque l'option Tous libellés (All labelled) était sélectionnée.

Problèmes connus

La taille d'importation maximale est passée de 2 Go ou 2 000 pages à 1 Go ou 2 000 pages.
La recherche ou le téléchargement d'un document contenant des caractères nécessitant un encodage d'URL (&, ,, +, #, ') dans son nom de fichier échoue avec invalid query.

Pour plus de détails sur toutes les modifications apportées à Document Manager, veuillez consulter les notes de publication précédentes.

3 juin 2022

Problèmes connus

Certains fichiers PDF contenant des polices Type3 peuvent entraîner une utilisation élevée de la mémoire pour le service Digitizer. Lorsque cela se produit, les opérations d’importation à partir de Document Manager sont dégradées. L’atténuation de ce problème consiste à supprimer manuellement les pods Kubernetes qui utilisent beaucoup de mémoire (constamment au-dessus de 70 %).

Sommaire de la page

Nouveautés
Améliorations
Résolution de bogues
Problèmes connus
3 juin 2022
Problèmes connus

Cette page vous a-t-elle été utile ?

Précédent2022.4.1