Document Understanding - Présentation de la numérisation

document-understanding

2024.10

false

Guide de l'utilisateur de Document Understanding

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Présentation de la numérisation

Vue d’ensemble du composant de numérisation dans l’infrastructure Document Understanding, expliquant comment le texte lisible par machine est extrait des fichiers entrants lors de la première étape de traitement.

Ce qu'est la numérisation

La numérisation est le processus d'obtention d'un texte lisible par une machine à partir d'un fichier entrant donné. Elle rend possible la compréhension de son contenu par un robot et permet à ce dernier d'agir en conséquence. Il s'agit de la première étape appliquée aux fichiers qui doivent être traités via l'infrastructure Document Understanding^TM .

L'étape de numérisation a deux sorties :

le texte du fichier traité, stocké dans une variable chaîne, et
le modèle d'objet document de ce fichier – objet JSON contenant des informations de base telles que le nom, le type de contenu, la longueur du texte, le nombre de pages ainsi que des informations détaillées telles que la rotation des pages, la langue détectée, le contenu et les coordonnées de chaque mot identifié dans le fichier.

Dans l'infrastructure de traitement de document, la numérisation est effectuée à l'aide de l'activité Numériser le document (Digitize Document).

Ce que la numérisation n'est pas

Bien que liée, l'étape de numérisation se distingue de l'OCR.

Dans de nombreux cas, les fichiers à traiter sont des fichiers PDF natifs (non numérisés) qui peuvent être lus par programmation par le robot sans appliquer l'OCR.

Quand l'OCR est utilisée dans la numérisation

L'activité Numériser un document (Digitize Document) nécessite, dans le cadre de sa configuration, la sélection d'un moteur OCR afin qu'en cas de besoin, il puisse être utilisé tout en exécutant uniquement l'OCR sur :

les fichiers images
- les formats d'images pris en charge sont .png, .jpe, .jpg, .jpeg, .tiff, .tif, .bmp
- pour les fichiers TIFF multipages, l'OCR est appliqué pour chaque page
pages PDF qui
- ne présentent aucun contenu lisible par machine
- contiennent des images qui couvrent une zone significative de la page.

Remarque :

Les limitations suivantes de numérisation s’appliquent:

La limite de taille de fichier est de 160 Mo.
Il y a un maximum de 500 pages par limite de document.

L'OCR est également toujours appliqué si l'activité Numériser le document (Digitize Document) est configurée avec l'indicateur ForceApplyOCR défini sur True (Vrai). Cette option est généralement recommandée dans les scénarios où un pourcentage important de fichiers semble contenir du contenu natif, mais où le contenu lu en natif ne correspond pas à ce qu'un utilisateur peut observer dans ces fichiers.

Comment choisir votre moteur OCR

Comme chaque cas d'utilisation a ses propres particularités, il est fortement recommandé de tester tous les moteurs OCR disponibles avec des paramètres différents afin de déterminer celui qui fonctionne le mieux pour votre projet. Nous recommandons également de porter une attention particulière aux arguments du moteur OCR, tels que Profil, Échelle, Langue etc. (peut varier d'un moteur à un autre), afin d'identifier les meilleurs paramètres par cas d'utilisation.

Sommaire de la page

Ce qu'est la numérisation
Ce que la numérisation n'est pas
Quand l'OCR est utilisée dans la numérisation
Comment choisir votre moteur OCR

Cette page vous a-t-elle été utile ?

PrécédentNumérisation

SuivantActivités liées à la numérisation

Ce qu'est la numérisation​

Ce que la numérisation n'est pas​

Quand l'OCR est utilisée dans la numérisation​

Comment choisir votre moteur OCR​

Cette page vous a-t-elle été utile ?

Ce qu'est la numérisation

Ce que la numérisation n'est pas

Quand l'OCR est utilisée dans la numérisation

Comment choisir votre moteur OCR