Notes de publication de Document Understanding
2022.4.0
Date de publication Document Manager sur site : 23 mai 2022
Tenez-vous au courant de toutes les dernières nouvelles concernant Document Manager en parcourant la prochaine liste de modifications qui ont eu lieu depuis la dernière version LTS jusqu'à maintenant.
Data Manager change son nom en Document Manager.
Une nouvelle option est disponible, vous permettant de supprimer définitivement des fichiers individuels. L’option se trouve dans la liste déroulante qui contient également l’option de téléchargement.
Vous avez maintenant la possibilité de renommer les champs précédemment créés.
La recherche à l’intérieur d’un document est désormais possible, ce qui vous permet de rechercher des mots dans votre document actuel.
Les données recueillies lors de l’importation d’un ensemble de données sont désormais intégrées dans les fichiers JSON du champ du sous- ensemble, ce qui signifie que si vous modifiez manuellement le fichier ou le supprimez complètement de l’ensemble de données, cela n’a pas d’impact sur l’apprentissage du modèle.
deleted
.
La vue Document a reçu de nouveaux conseils de démarrage.
EXEC sp_fulltext_service 'restart_all_fdhosts'
par un administrateur de base de données disposant des autorisations appropriées sur le serveur.
Lors de l'utilisation de la fonctionnalité Prévoir (Predict) avec Document Manager, les données balisées qui n'ont pas été modifiées manuellement par l'utilisateur sont remplacées par les valeurs reçues du modèle.
Ajout d'info-bulles plus descriptives sur les types de documents d'entraînement, de validation et d'évaluation.
La boîte de dialogue de modification de champ pour les colonnes et les champs réguliers a été restructurée. Les options Traitement ultérieur (Post processing), Multipage, Évaluation (Scoring) et Couleur (Color) ont été déplacées vers l'onglet Avancé (Advanced). Le reste des options se trouve dans l'onglet Général.
Amélioration de la vitesse d'importation des documents en double.
Les champs de classification apparaissent désormais dans l'ordre dans lequel ils ont été créés.
- Correction d'un problème connu qui provoquait l'échec de la recherche ou du téléchargement d'un document contenant des caractères nécessitant un encodage d'URL (
&
,,
,+
,#
,'
) dans son nom de fichier avec requête invalide. - Correction d'un bogue qui entraînait l'échec de la fonctionnalité Prévoir (Predict) sur les documents contenant du texte très dense.
- Suppression de la limite d'importation de 2 000 documents par session. Vous pouvez maintenant avoir plus de 2 000 documents dans une session, compte tenu de la limite de 2 000 pages par importation.
- Correction d'un bug qui empêchait de sélectionner plus de 3 cases en appuyant sur
ctrl
oushift
. - Correction d'un bogue qui provoquait le blocage d'une importation dans le traitement jusqu'à son expiration après le redémarrage du pod, mais la tâche ne reprenait pas.
- Correction d’un bogue qui empêchait la fonction Prévoir (Predict) d’extraire des données de l’ensemble du document. Veuillez noter que la limite de 10 pages lors de l’utilisation de la fonction avec les points de terminaison publics est toujours en place.
- Correction d'un bogue pour Microsoft Read OCR où les points de terminaison correspondant aux sous-domaines
*.cognitiveservices.azure.com
lançaient une erreurOCR endpoint is not valid
. - Correction d'un bug où l'importation de l'ensemble de données Data Manager mélangeait les pages des documents de plus de 10 pages.
- Correction d'un bug qui entraînait le téléchargement ou l'export d'un ensemble de données vide ou uniquement d'un petit sous-ensemble de l'ensemble de données complet lorsque l'option Tous libellés (All labelled) était sélectionnée.
- La taille d'importation maximale est passée de 2 Go ou 2 000 pages à 1 Go ou 2 000 pages.
- La recherche ou le téléchargement d'un document contenant des caractères nécessitant un encodage d'URL (
&
,,
,+
,#
,'
) dans son nom de fichier échoue avecinvalid query
.
Pour plus de détails sur toutes les modifications apportées à Document Manager, veuillez consulter les notes de publication précédentes.
- Certains fichiers PDF contenant des polices Type3 peuvent entraîner une utilisation élevée de la mémoire pour le service Digitizer. Lorsque cela se produit, les opérations d’importation à partir de Document Manager sont dégradées. L’atténuation de ce problème consiste à supprimer manuellement les pods Kubernetes qui utilisent beaucoup de mémoire (constamment au-dessus de 70 %).