document-understanding
2024.10
true
UiPath logo, featuring letters U and I in white
Document Understanding Modern Projects User Guide
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 11 nov. 2024

Fonctionnalités fondamentales

Pour automatiser le traitement des documents, quatre capacités fondamentales sont requises : numérisation, classification, extraction et validation.

Graphique 1. Fonctionnalités fondamentales

Numérisation

La numérisation convertit un document physique en texte lisible par machine, qui peut ensuite être traité numériquement. Bien que la reconnaissance optique de caractères (OCR) soit une partie importante de la numérisation, le processus de numérisation est plus complexe et implique diverses étapes, y compris l’OCR.

Par exemple, dans le cas de documents au format PDF, l’algorithme de numérisation peut faire la distinction entre les PDF numérisés et natifs ou les PDF hybrides contenant des images numérisées et du texte natif. La majeure partie du texte peut être extraite directement d’un document PDF natif, mais dans certains cas, quelques logos peuvent avoir besoin d’être lus à l’aide de l’OCR. Le processus de numérisation peut gérer toutes ces situations pour garantir une précision maximale dans la détection de texte tout en s’exécutant rapidement et efficacement.

Classification

L’objectif d’une classification est de numériser un document et de décider à quel type de document il appartient. Connaître le type d’un document est important car différents types de documents nécessitent différentes techniques de traitement. Par exemple, une facture doit être traitée par un modèle d’extraction de factures pour garantir que tous les champs pertinents sont extraits.

Image 2. Classifieur de documents docs image

Extraction

Data extraction is the process of selecting and retrieving only the relevant information from a document. Extracting specific data from a lengthy document using string manipulation can be challenging. However, Document UnderstandingTM provides various extraction methodologies for different document types and formats. For example, we only want to extract the Vendor Name, Billing Name, Due Date, and Total fields from an invoice.

Image 3. Extraction de données

Validation

Dans la classification et l’extraction, les robots logiciels utilisent le concept de confiance, qui mesure le niveau de confiance qu’une tâche particulière a été correctement effectuée. La tâche peut consister à reconnaître un type de document, à identifier un champ ou à lire les données qu’il contient. Dans ces cas, l’infrastructure Document Understanding vous permet d’engager un utilisateur humain pour examiner et valider la sortie du robot. Dans le meilleur scénario, l’intervention humaine est utilisée pour entraîner la précision du robot via l’apprentissage automatique.

  • Numérisation
  • Classification
  • Extraction
  • Validation

Cette page vous a-t-elle été utile ?

Obtenez l'aide dont vous avez besoin
Formation RPA - Cours d'automatisation
Forum de la communauté UiPath
Uipath Logo White
Confiance et sécurité
© 2005-2024 UiPath Tous droits réservés.