Document Understanding - Vue d’ensemble de la classification des documents

document-understanding

2022.4

false

Guide de l'utilisateur de Document Understanding

Important :

La localisation du contenu nouvellement publié peut prendre 1 à 2 semaines avant d’être disponible.

Vue d’ensemble de classification de document

Qu'est-ce que la classification des documents

Classification de documents (Document Classification) est un composant de l'infrastructure de Document Understanding qui permet d'identifier les types de fichiers traités par le robot.

Un fichier peut être classé en un ou plusieurs types de documents selon son contenu et les méthodes de classement utilisées :

si un fichier contient un seul type de document logique (par exemple, il s'agit d'une facture ou d'un dossier médical dans son intégralité), alors le composant de classification doit être configuré en conséquence et renvoyer un seul résultat de classification ;
si un fichier contient plusieurs types de documents logiques (par exemple, il contient une facture de la page 1 à 5, un dossier médical pour les 10 pages suivantes ainsi qu'un contrat d'assurance de la page 16 à la fin), alors le composant de classification devrait renvoyer plusieurs résultats de classification, chacun correspondant à la plage de pages du fichier d'entrée appropriée.

Les types de documents pour lesquels la classification est tentée sont ceux définis dans la taxonomie du projet.

Quand utiliser la classification des documents

D'une part, si un projet doit traiter des fichiers qui sont tous du même type de document et toujours présents sous la forme d'une instance par fichier (par exemple, une facture dans un fichier), alors la classification n'est pas nécessaire et peut être ignorée dans son intégralité.

D'un autre côté, si le projet traite deux types de documents ou plus (par exemple, le workflow doit traiter des factures et des dossiers médicaux qui ne peuvent pas être distingués avant le traitement), ou si les fichiers contiennent parfois deux ou plusieurs types de documents distincts (par exemple, un fichier contenant 3 factures), alors la classification est fortement recommandée.

Comment utiliser le composant de classification de document

La classification est effectuée via l'activité Classer l'étendue du document (Classify Document Scope). Pour classer les documents, vous pouvez utiliser un ou plusieurs classifieurs, car l'activité d'étendue a pour rôle de configurer et d'exécuter un ou plusieurs algorithmes de classification de documents ainsi que d'offrir une option de configuration simple et unifiée qui réponde à vos besoins.

En bref, voici les fonctions de l'activité Classer l'étendue du document (Classify Document Scope) :

Fournit à tous les classifieurs (algorithmes de classification) les configurations nécessaires à leur exécution.
Accepte un ou plusieurs classifieurs.
Rend possible le filtrage du type de document, le mappage de la taxonomie et le réglage des paramètres du seuil de confiance minimum au niveau du classifieur.
Rapporte les informations de classification de manière unifiée, quelle que soit la source de classification.

Classer l'étendue du document (Classify Document Scope) vous permet de la configurer à l'aide de l'assistant Configurer les classifieurs (Configure Classifiers). Vous pouvez déterminer

quels types de documents sont acceptés à partir de quel classifieur,
quel est le seuil de confiance minimum d'un résultat donné jugé acceptable pour chaque classifieur,
quel est le mappage taxonomique, au niveau du type de document, entre la taxonomie du projet et la taxonomie interne du classifieur (le cas échéant).

Notez que l'ordre des classifieurs dans Classer l'étendue du document (Classify Document Scope) est important :

les classifieurs sont exécutés en priorité, de gauche à droite ;
un résultat de classification renvoyé par un classifieur est accepté s'il rapporte l'un des types de documents acceptés et présente un seuil de confiance égal ou supérieur au seuil de confiance minimum défini pour ce classifieur ;
un classifieur est exécuté avec les plages de pages demeurées non classées par les classifieurs précédents uniquement (il peut donc être appelé plusieurs fois lors d'une seule exécution).

Classifieurs disponibles

En fonction des exigences du cas d'utilisation, vous pouvez choisir plusieurs méthodes de classification différentes, nommées classifieurs.

Les classifieurs peuvent être trouvés dans les packages UiPath.IntelligentOCR.Activities, ainsi que dans d'autres packages UiPath (UiPath.DocumentUnderstanding.ML.Activities) ou des packages tiers (UiPath.Abbyy.Activities).

Les classifieurs disponibles sont :

Vous pouvez toujours créer votre propre classifieur à l'aide des contrats de traitement de documents (Document Processing Contrats) publics, vous permettant ainsi de mettre en œuvre n'importe quel algorithme correspondant à votre cas d'utilisation.

Sommaire de la page

Qu'est-ce que la classification des documents
Quand utiliser la classification des documents
Comment utiliser le composant de classification de document
Classifieurs disponibles

Cette page vous a-t-elle été utile ?

PrécédentClassification de document

SuivantAssistant de configuration des classifieurs de l'activité Classer l'étendue du document (Classify Document Scope)